Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number KA-106 (Softcopy KA105)
Collection Type Karya Akhir (KA)
Title Pengkategorisasian teks berbahasa indonesia secara otomatis dengan algoritma data mining: support vector machine, C5.0, logistic regression dan k-nearest neighbor
Author Laurentius Lintaka;
Publisher Jakarta : Program Studi Magister Teknologi Informasi Fasilkom UI, 2011
Subject Data mining, support vector machine
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
KA-106 (Softcopy KA105) Indonesia TERSEDIA
Tidak ada review pada koleksi ini: 33035
ABSTRAK

Dalam era internet ini, semakin mudah kita temui teks atau dokumen yang berbahasa Indonesia. Dengan mesin pencari kita dapat dengan mudah menemukan halaman web yang berisi berita, artikel, surat elektronik atau buku elektronik. Hampir setiap saat bermunculan pula halaman web yang baru. Mengkategorisasi teks atau dokumen tersebut ke dalam topik tertentu secara manual tentulah mudah. Namun bila jumlah dokumen telah mencapai ribuan, tentunya kita kesulitan untuk mengkategorisasinya. Salah satu solusi untuk mengklasifikasi dokumen tersebut adalah dengan pengkategorisasian secara otomatis. Pengkategorisasian secara otomatis bertujuan agar mesin mempunyai kemampuan seperti manusia yang mampu menentukan kategori dari suatu dokumen secara otomatis. Data mining adalah salah satu pendekatan untuk melakukan pengkategorisasian secara otomatis. Dengan data mining, mesin dapat belajar karakteristik suatu kategori, dan berdasarkan karakteristik tersebut bisa memprediksi kategori dari suatu data yang baru. Penelitian ini mencoba untuk mengkategorisasikan teks berbahasa Indonesia ke dalam topik-topik tertentu seperti politik, ekonomi, olahraga, dll. Pengkategorisasian teks ini menggunakan algoritma data mining Support Vector Machine (SVM), C5.0, Logistic Regression (LR), dan k-Nearest Neighbor (kNN). Keefektifan klasifikasi keempat algoritma tersebut dibandingkan dalam penelitan ini. Hasilnya LR memiliki keefektifan tertinggi disusul SVM, C5.0 dan kNN.