JURNAL : SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN

ABSTRAK - Coverage dan saliency merupakan masalah utama dalam peringkasan multi dokumen. Hasil ringkasan yang baik harus mampu mampu mencakup (coverage) sebanyak mungkin konsep penting (salient) yang ada pada dokumen sumber. Penelitian ini bertujuan untuk mengembangkan metode baru peringkasan multi dokumen dengan teknik semantic clustering dan pemilihan kalimat representatif cluster. Metode yang diusulkan berdasarkan prinsip kerja Latent Semantic Indexing (LSI) dan Similarity Based Histogram Clustering (SHC) untuk pembentukan cluster kalimat secara semantik, serta mengkombinasikan fitur Sentence Information Density (SID) dan Sentence Cluster Keyword (SCK) untuk pemilihan kalimat representatif cluster. Pengujian dilakukan pada dataset Document Understanding Conference (DUC) 2004 Task 2 dan hasilnya diukur menggunakan Recall-Oriented Understudy for Gisting Evaluation (ROUGE). Hasil pengujian menunjukkan bahwa metode yang diusulkan mampu mencapai nilai ROUGE-1 rata-rata sebesar 0,395 dan nilai ROUGE-2 rata-rata sebesar 0,106.

Kata kunci: peringkasan multi dokumen, latent semantic indexing, similarity based histogram clustering, sentence information density, sentence cluster keyword

PENDAHULUAN - Perkembangan World Wide Web (WWW) diikuti dengan pertumbuhan jumlah dokumen digital yang sangat pesat. Hal tersebut menimbulkan permasalahan dalam pencarian dan peringkasan informasi dari berbagai sumber (Sarkar, 2009). Peringkasan yang dilakukan secara manual oleh manusia tidak efisien karena jumlah dokumen yang sangat besar (Gupta & Lehal, 2010).

Peringkasan multi dokumen secara otomatis menjadi perhatian pada beberapa penelitian (Sarkar, 2009; Kogilavani & Balasubramani, 2010; Ouyang, Li, Zhang, Li, & Lu, 2012) sebagai sebuah solusi dalam peringkasan dengan kondisi jumlah dokumen yang sangat banyak (Sarkar, 2009). Peringkasan multi dokumen secara otomatis menghasilkan bentuk dokumen yang lebih ringkas tanpa kehilangan kandungan informasi yang penting (Gupta & Lehal, 2010).