Jenis Permasalahan Data Mining : Klasifikasi

Jenis Permasalahan Data Mining : Klasifikasi

Klasifikasi pertama kali diterapkan pada bidang tanaman yang mengklasifikasikan suatu proses tertentu, seperti yang dilakukan oleh Carolus Van Linne ( atau dikenal dengan nama Carolus Linnaeus ) yang pertama kali mengklasifikasikan spisies berdasarkan karakteristik fisik. Selanjutnya dia dikenal sebagai bapak klasifikasi. Komponen-komponen utama dari proses klasifikasi antara lain :

  • Kelas, merupakan variabel tak bebas yang merupakan label dari hasil klasifikasi. Sebagai contoh adalah kelas loyalitas pelanggan, kelas badai atau gempa bumi, dan lain-lain.
  • Prediktor, merupakan variabel bebas suatu model berdasarkan dari karakteristik atribut data yang diklasifikasi, misalnya merokok, minum-minuman alkohol, tekanan darah, status perkawinan, dan sebagaimya.
  • Set data pelatihan, merupakan sekumpulan data lengkap yang berisi kelas dan prediktor untuk dilatih agar model dapat mengelompokan ke dalam kelas yan tepat. Contohnya adalah grup pasien pelanggan di suatu supermarket dan sebagainya
  • Set data uji, berisi data-data baru yang akan dikelompokan oleh model guna mengetahui akurasi dari model yang telah dibuat.

Sebagian besar istilah-istilah yang berada dalam aktivitas klasifikasi sama dengan digunakan dalam aplikasi database. Namun beberapa mungkin tidak begitu dikenal, istilah-istilah tersebut antara lain :
  • Set data yang digunakan untuk prosesm pelatihan dikenal dengan nama berbeda antara lain:  reords, tuples, vektor, instan, objek dan sample.
  • Tiap set data tersebut memiliki suatu atribut.
  • Pengklasifikasi ( classifier ), merupakan model matematis yang akan menentukan suatu objek masuk dalam kelas tertentu.
  • Set data testing, merupakan data-data dengan sifat seperti data pelatihan untuk menguji akurasi dari model yang telah dibuat.

Dalam mesin pembelajaran ( mechine learning ) kita mengenal istilah pembelajaran terpandu ( supervised learning ) dan pembelajaran tak terpandu ( unsupervised learning ). Istilah ini sama dengan istilah yang telah didefinisikan sebelumnya. Pembelajaran terpandu memiliki kesamaan dengan metode prediksi yang memprediksi keluaran dari masukan tertentu. Sedangkan pembelajran rak terpandu identik dengan metode deskripstif yang mengelompokan dalam pola-pola tertentu.

Untuk menentukan suatu model baik atau buruk, kita memerlukan elemen-elemen kunci antara lain :
  • Akurasi prediksi, yang menentukan seberapa akurat suatu model dalam memprediksi keluaran
  • Kecepatan, yang menunjukan seberapa cepat suatu model dalam memproses masukan.
  • Robustness, menggambarkan kemampuan suatu model melakukan prediksi yang akurat walau dalam kondisi ekstrim dan banyak gangguan yang terjadi.
  • Skalabilitas, dalah kemampuan suatu model memproses data baik dalam ukuran yang lebih besar maupun data dari bidang lain dan diinterpretasikan.
  • Kesederhanaan, merupakan sifat yang cenderung dipilih untuk menyelesaikan suatu permasalahan.

Metode-metode / model-model telah dikembangkan oleh periset untuk menyelesaikan kasus klasifikasi. Metode tersebut antara lain :
  • Pojon Keputusan
  • Pengklasifikasi Naive Bayes/Bayes
  • Jaringan Syaraf Tiruan
  • Analisis Statistik
  • Algoritma Genetik
  • Rough Sets
  • Pengklasifikasi k-Nearest Neighbour
  • Metode Berbasis Aturan
  • Memori Based Reasoning
  • Support Vector Machine


Sumber pustaka : Pudjo Prabowo. Buku Penerapan Data Mining Dengan Matlab. Bandung: Rekayasa Sains. 2013