JURNAL: TEMU KEMBALI INFORMASI BERBASIS KLUSTER UNTUK SISTEM TEMU KEMBALI INFORMASI TEKS BAHASA INDONESIA

Abstrak

Volume informasi teks yang berkembang eksponensial menyebabkan kesulitan dalam proses temu kembali informasi, utamanya pada model perolehan informasi linear berbasis word matching yang umumnya tidak efektif. Faktor sinonim dari kata menjadi penyebab munculnya dokumen tidak relevan dalam perolehan, sebaliknya faktor polisemy menyebabkan banyak dokumen yang relevan tidak terpanggil. Penerapan clustering dokumen dipercaya dapat meningkatkan kinerja berdasar satu hypothesis bahwa dokumen yang relevan terhadap suatu query cenderung berada dalam kluster yang sama. Penelitian ini melakukan kajian penerapan clustering dokumen untuk meningkatkan perolehan informasi dengan cara melakukan retrieval berbasis kluster (cluster-based retrieval) dengan model ruang vektor. Koleksi dokumen mula-mula dikluster dan representasi kluster digunakan vektor pusat kluster. Dokumen-dokuman dalam kluster yang pusat klusternya memiliki similaritas tertinggi terhadap query dipilih sebagai perolehan. Metode clustering yang dipilih adalah metode partitional, yaitu algoritma Bisecting K-Mean dan Buckshot, dan metode hierarchical agglomerative dengan algoritma perhitungan similaritas kluster UPGMA dan Complete Link. Kriteria kinerja perolehan informasi diukur dengan parameter F-measure yang diturunkan dari Precision dan Recall dari retrieval. Koleksi dokumen yang digunakan adalah 1000 dokumen berita yang telah diketahui struktur klusternya dan 3000 dokumen berita dengan struktur kluster belum diketahui. Hasil penelitian menunjukkan bahwa pada koleksi yang dicobakan terjadi peningkatan kinerja perolehan informasi berbasis kluster sebesar berturut-turut 12.3% dan 9.5% dibandingkan dengan perolehan linear berbasis word –matching.

Kata Kunci : Perolehan informasi, clustering, cluster-based retrieval

Pendahuluan

Penerapan teknologi digital dan jaringan komputer telah menyebabkan terjadinya “ledakan” informasi yang berkembang eksponensial. Hal ini menyebabkan Sistem temu kembali informasi (information retrieval = IR) mengalami kesulitan. Google sebagai mesin pencari terkemuka pada tahun 2006 mengindeks tidak kurang dari 16 milyar dokumen (Google.com, 2006). Sebagian besar (80%) informasi adalah berbentuk teks (Tan,1999).

Peneliti: Amir Hamzah

Untuk lebih lengkapnya silahkan download di link berikut: