Pengelompokan dokumen atau document clustering telah menjadi suatu
teknik yang berguna dalam pengorganisasian sekumpulan dokumen. Dengan teknik ini, komputer bisa secara otomatis mengelompokkan sekumpulan dokumen ke dalam kluster-kluster yang cocok yang merepresentasikan data yang ada. Dengan demikian, proses pencarian informasi bisa dilakukan dengan lebih efisien. Telah banyak metode
yang dikembangkan untuk mendukung pengelompokan dokumen. Dua diantara metode-metode tersebut adalah Nonnegative Matrix Factorization (NMF) dan Random Projection (RP). Pada penelitian ini, proses pengelompokan dokumen dilakukan dengan metode reduksi dimensi NMF dan RP pada dokumen berbahasa Indonesia. Untuk metode RP, diperlukan tahap tambahan untuk dapat mengelompokkan dokumen. Metode yang digunakan pada tahap ini adalah K-Means. Data yang digunakan pada percobaan adalah artikel media massa. Percobaan dilakukan dengan variasi pada variabel percobaan seperti jumlah kluster, jumlah data, jenis data, dan informasi fitur. Dari percobaan yang telah dilakukan, terlihat bahwa teknik NMF dan RP
dapat diterapkan dalam aplikasi pengelompokan dokumen bahasa Indonesia. Akurasi pengelompokan bisa mencapai 97%. Dari percobaan terlihat juga bahwa teknik NMF menghasilkan akurasi yang lebih tinggi daripada RP dengan kisaran perbedaan sekitar 2%. Ukuran dan jumlah kluster juga mempengaruhi akurasi. Ukuran kluster yang semakin besar menyebabkan peningkatan akurasi sedangkan jumlah kluster
yang semakin banyak menyebabkan penurunan akurasi. Dengan ukuran kluster 296 dan jumlah kluster 2 misalnya, akurasi mencapai 96%. Disamping itu, informasi fitur berupa presence merupakan yang paling cocok digunakan karena menghasilkan akurasi yang paling tinggi, juga mencapai 97%. Jumlah fitur yang lebih banyak dan
tidak mengandung stopwords juga memberikan akurasi yang lebih tinggi.
|
|