Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-0752 (Softcopy SK-234) Source code SK-211
Collection Type Skripsi
Title Pengelompokan dokumen bahasa indonesia dengan teknik reduksi dimensi nonnegative matrix factorization dan random projection
Author Suryanto Ang;
Publisher Universitas Indonesia. Fakultas Ilmu Komputer, 2009
Subject Document clustering
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-0752 (Softcopy SK-234) Source code SK-211 TERSEDIA
Tidak ada review pada koleksi ini: 27648
Pengelompokan dokumen atau document clustering telah menjadi suatu teknik yang berguna dalam pengorganisasian sekumpulan dokumen. Dengan teknik ini, komputer bisa secara otomatis mengelompokkan sekumpulan dokumen ke dalam kluster-kluster yang cocok yang merepresentasikan data yang ada. Dengan demikian, proses pencarian informasi bisa dilakukan dengan lebih efisien. Telah banyak metode yang dikembangkan untuk mendukung pengelompokan dokumen. Dua diantara metode-metode tersebut adalah Nonnegative Matrix Factorization (NMF) dan Random Projection (RP). Pada penelitian ini, proses pengelompokan dokumen dilakukan dengan metode reduksi dimensi NMF dan RP pada dokumen berbahasa Indonesia. Untuk metode RP, diperlukan tahap tambahan untuk dapat mengelompokkan dokumen. Metode yang digunakan pada tahap ini adalah K-Means. Data yang digunakan pada percobaan adalah artikel media massa. Percobaan dilakukan dengan variasi pada variabel percobaan seperti jumlah kluster, jumlah data, jenis data, dan informasi fitur. Dari percobaan yang telah dilakukan, terlihat bahwa teknik NMF dan RP dapat diterapkan dalam aplikasi pengelompokan dokumen bahasa Indonesia. Akurasi pengelompokan bisa mencapai 97%. Dari percobaan terlihat juga bahwa teknik NMF menghasilkan akurasi yang lebih tinggi daripada RP dengan kisaran perbedaan sekitar 2%. Ukuran dan jumlah kluster juga mempengaruhi akurasi. Ukuran kluster yang semakin besar menyebabkan peningkatan akurasi sedangkan jumlah kluster yang semakin banyak menyebabkan penurunan akurasi. Dengan ukuran kluster 296 dan jumlah kluster 2 misalnya, akurasi mencapai 96%. Disamping itu, informasi fitur berupa presence merupakan yang paling cocok digunakan karena menghasilkan akurasi yang paling tinggi, juga mencapai 97%. Jumlah fitur yang lebih banyak dan tidak mengandung stopwords juga memberikan akurasi yang lebih tinggi.