JURNAL : KLASIFIKASI TEKS DENGAN NAIVE BAYES CLASSIFIER (NBC) UNTUK PENGELOMPOKAN TEKS BERITA DAN ABSTRACT AKADEMIS

ABSTRAK

Perkembangan informasi teks digital telah tumbuh sangat cepat. Saat ini diperkirakan 80% teks digital dalam bentuk tidak terstruktur. Tingginya volume dokumen teks ini dipicu oleh aktivitas dari berbagai sumber berita dan aktivitas akademis dari kegiatan riset, konferensi dan pertemuan ilmiah yang makin meningkat. Kebutuhan analisis text mining sangat diperlukan dalam menangani teks yang tidak terstruktur tersebut. Salah satu kegiatan penting dalam text mining adalah klasifikasi atau kategorisasi teks. Kategorisasi teks sendiri saat ini memiliki berbagai cara pendekatan antara lain pendekatan probabilistic, support vector machine , dan artificial neural network, atau decision tree classification. Metode probabilistic Naïve Bayes Classifier (NBC) memiliki beberapa kelebihan kesederhanaan dalam komputasinya. Namun metode ini memiliki kelemahan dalam asumsi yang sulit dipenuhi, yaitu independensi feature kata. Penelitian ini mengkaji kinerja NBC untuk kategorisasi teks berita dan teks akademis. Penelitian menggunakan data 1000 dokumen berita dan 450 dokumen abstrak akademik. Hasil penelitian menunjukkan pada dokumen berita akurasi maksimal dicapai 91% sedangkan pada dokumen akademik 82%. Seleksi kata dengan minimal muncul pada 4 atau 5 dokumen memberikan akurasi yang paling tinggi.

Kata Kunci: naïve bayes classifier , klasifikasi, akurat, seleksi kata

PENDAHULUAN

Perkembangan yang pesat dalam informasi digital telah menyebabkan semakin meningkat pula volume informasi yang berbentuk teks. Diantara berbagai bentuk informasi digital, diperkirakan 80% dokumen digital adalah dalam bentuk teks (Tan, 1999). Tingginya volume dokumen teks ini misalnya dengan aktivitas yang terus meningkat dari berbagai sumber berita dan aktivitas penulisan dokumen akademis dari kegiatan riset, konferensi dan pertemuan-pertemuan ilmiah. Kondisi “kebanjiran informasi” ini telah menimbulkan kesulitan manusia dalam mencerna informasi. Menurut Bridge (2011), hal yang lebih menyulitkan dalam analisis adalah bahwa sekitar 80% sampai 85% bentuk informasi tersebut dalam format tidak terstruktur (unstructured data). Melimpahnya informasi teks tidak terstruktur telah mendorongnya munculnya disiplin baru dalam analisis teks, yaitu text mining yang mencoba menemukan pola-pola informasi yang dapat digali dari suatu teks yang tidak terstruktur tersebut. Dengan pengertian tersebut text mining mengacu juga kepada istilah text data mining (Hearst, 1997) atau penemuan pengetahuan dari basis data teks (Friedman and Dagan, 1995). Menurut Saraswati (2011), saat ini text mining telah mendapat perhatian dalam berbagai bidang, antara lain :

Peneliti : Amir Hamzah

Untuk lebih lengkapnya silahkan download di link berikut ini :