Jurnal: Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia

Jurnal: Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia

Jurnal: Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia

Abstrak 

Update summarization menghasilkan ringkasan dengan mempertimbangkan informasi yang telah dibaca oleh pengguna sebelumnya. Pada makalah ini dikaji teknik update summarization pada kumpulan dokumen berbahasa Indonesia. Sistem peringkasan ini memiliki dua subsistem peringkasan yang berbeda untuk kumpulan dokumen yang diasumsikan sudah dibaca oleh pengguna dan kumpulan dokumen yang belum dibaca oleh pengguna. Untuk setiap subsistem, terdapat komponen praproses, komponen penentuan topik dengan frequent term-based clustering untuk menentukan topik umum dari kumpulan dokumen, dan komponen pemilihan kalimat dengan maximal marginal relevance dalam proses perankingan kalimat dan juga proses update untuk menentukan kalimat yang menjadi hasil ringkasan. Dari hasil pengujian setiap komponen, didapatkan kesimpulan bahwa frequent term-based clustering mampu menghasilkan topik dari kumpulan dokumen yang menjadi masukan dan maximal marginal relevance mampu melakukan perankingan kalimat untuk menentukan kalimat yang menjadi hasil ringkasan tanpa mengandung informasi yang sudah dibaca dan memiliki redundansi informasi yang rendah. 

Kata Kunci Frequent term-based clustering, maximal marginal relevance, redundansi, ringkasan, update summarization

Pendahuluan 

Pada masa ini, informasi sudah tersebar sangat banyak di internet. Informasi tersebut tersebar dalam bentuk dokumen seperti artikel, berita, dan makalah ilmiah. Jumlah dokumen yang banyak ini menimbulkan masalah yaitu konten dokumen sulit dimengerti yang disebabkan oleh terlalu banyaknya informasi atau disebut juga information overload. Peringkasan dokumen merupakan salah satu cara untuk mengatasi masalah information overload. Peringkasan teks otomatis mampu menghasilkan ringkasan yang memiliki konten penting pada dokumen sumber (Jiaming, 2008). Salah satu jenis peringkasan teks otomatis adalah peringkasan multidokumen yaitu peringkasan dengan banyak dokumen sumber. Namun, hasil peringkasan multidokumen ini masih sering memiliki informasi yang sudah diketahui dan memiliki redundansi informasi. Update summarization adalah bentuk peringkasan multidokumen berdasarkan asumsi bahwa pengguna sudah pernah membaca informasi sebelumnya (Aggarwal dkk., 2009). Dengan kata lain, informasi pada ringkasan yang diterima bersifat up-to-date atau baru. Jenis peringkasan ini menjadi bahan kompetisi pada workshop tahunan untuk penelitian mengenai teknologi pemrosesan bahasa alami yang dinamakan Document Understanding Conference (DUC) pada tahun 2007 dan sudah berganti nama menjadi Text Analysis Conference (TAC) sejak tahun 2008. Columbia’s Newsblaster (http://newsblaster.cs.columbia.edu) merupakan sebuah aplikasi penyaji berita online dengan berbagai fitur diantaranya pengkategorian dan peringkasan. Newsblaster menyediakan sebuah prototipe update summarizer yang berfungsi untuk menghasilkan ringkasan berita yang baru.

Peneliti:  Widhaprasa E. Waliprana 

Untuk lebih lengkapnya silahkan download di link berikut:
Jurnal: Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia