Perpustakaan Fakultas Ilmu Komputer

Call Number	SK-0776 (Softcopy SK-258) Source code SK-234
Collection Type	Skripsi
Title	Pemanfaatan dokumen unlabeled pada klasifikasi topik berbasis naive bayes dengan algoritma expectation maximization/ Bayu Distiawan Trisedya
Author	Bayu Distiawan Trisedya;
Publisher	Universitas Indonesia. Fakultas Ilmu Komputer, 2009
Subject	Document clustering
Location	FASILKOM-UI;

Lokasi : Perpustakaan Fakultas Ilmu Komputer

Nomor Panggil	ID Koleksi	Status
SK-0776 (Softcopy SK-258) Source code SK-234		TERSEDIA

Source Code SK-776 Bayu Distiawan Trisedya.zip

SK-776-Bayu Distiawan Trisedya - 1205000215.pdf

Tidak ada review pada koleksi ini: 27814

Klasifikasi dokumen teks adalah masalah sederhana namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Namun, kebanyakan teknik klasifikasi dokumen yang ada memerlukan labeled documents dalam jumlah besar untuk melakukan tahap training. Dalam melakukan klasifikasi dokumen, pada tugas akhir ini digunakan algoritma Expectation Maximization yang dikombinasikan dengan algoritma Naīve Bayes untuk memanfaatkan unlabeled documents dengan tiga buah kumpulan data yaitu dokumen hukum, artikel media massa, dan 20Newsgroups dataset. Selain melihat pengaruh penggunaan unlabeled documents, percobaan pada tugas akhir ini juga menganalisis hasil klasifikasi dari beberapa aspek seperti pengaruh stopwords, penggunaan jumlah kategori, dan penggunaan empat buah jenis fitur yaitu presence, frequency, frequency normalized, dan pembobotan tf-idf. Secara umum, penggunaan unlabeled documents memberikan manfaat yang cukup berarti bagi peningkatan akurasi hasil klasifikasi. Dengan konfigurasi tertentu, rata-rata peningkatan akurasi yang diperoleh dapat mencapai angka 9,5%. Namun, penggunaan unlabeled documents ini harus didukung oleh penggunaan labeled documents dalam jumlah yang tepat. Dari percobaan yang telah dilakukan diperlukan sekitar 30 hingga 60 labeled documents tiap kategorinya untuk membangun initial classifier untuk dapat memanfaatkan unlabeled documents secara maksimal.