Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-0776 (Softcopy SK-258) Source code SK-234
Collection Type Skripsi
Title Pemanfaatan dokumen unlabeled pada klasifikasi topik berbasis naive bayes dengan algoritma expectation maximization/ Bayu Distiawan Trisedya
Author Bayu Distiawan Trisedya;
Publisher Universitas Indonesia. Fakultas Ilmu Komputer, 2009
Subject Document clustering
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-0776 (Softcopy SK-258) Source code SK-234 TERSEDIA
Tidak ada review pada koleksi ini: 27814
Klasifikasi dokumen teks adalah masalah sederhana namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Namun, kebanyakan teknik klasifikasi dokumen yang ada memerlukan labeled documents dalam jumlah besar untuk melakukan tahap training. Dalam melakukan klasifikasi dokumen, pada tugas akhir ini digunakan algoritma Expectation Maximization yang dikombinasikan dengan algoritma Naïve Bayes untuk memanfaatkan unlabeled documents dengan tiga buah kumpulan data yaitu dokumen hukum, artikel media massa, dan 20Newsgroups dataset. Selain melihat pengaruh penggunaan unlabeled documents, percobaan pada tugas akhir ini juga menganalisis hasil klasifikasi dari beberapa aspek seperti pengaruh stopwords, penggunaan jumlah kategori, dan penggunaan empat buah jenis fitur yaitu presence, frequency, frequency normalized, dan pembobotan tf-idf. Secara umum, penggunaan unlabeled documents memberikan manfaat yang cukup berarti bagi peningkatan akurasi hasil klasifikasi. Dengan konfigurasi tertentu, rata-rata peningkatan akurasi yang diperoleh dapat mencapai angka 9,5%. Namun, penggunaan unlabeled documents ini harus didukung oleh penggunaan labeled documents dalam jumlah yang tepat. Dari percobaan yang telah dilakukan diperlukan sekitar 30 hingga 60 labeled documents tiap kategorinya untuk membangun initial classifier untuk dapat memanfaatkan unlabeled documents secara maksimal.