ABSTRAK
Nama : Rezka Aufar Leonandya
Program Studi : Ilmu Komputer
Judul : Pengembangan Sistem Named Entity Recognition Menggunakan
Algoritme Semi-Supervised pada Dokumen Bahasa Indonesia
berbasis CRF dan HMM
Named Entity Recognition atau NER adalah salah satu bidang riset Information
Extraction yang dapat dimanfaatkan untuk machine translation, question
answering, semantic web, dll. Salah satu tantangan terbesar pada NER adalah
sulitnya membuat training data secara manual. Oleh karena itu, dilakukan
eksperimen untuk membangun sistem NER yang dapat mengidentifikasi entitas
Person, Place, dan Organization pada dokumen bahasa Indonesia dengan
pendekatan semi-supervised menggunakan tool stanford-ner. Pendekatan semisupervised
bekerja dengan memanfaatkan unlabeled data yang dibuat dari
Wikipedia dan DBPedia untuk membentuk training data tambahan yang tidak
mubazir dan berakurasi tinggi untuk setiap iterasi proses semi-supervised. Sistem
yang dibangun berhasil menghasilkan nilai F1 yang meningkat seiring dengan
bertambahnya iterasi proses semi-supervised.
Kata Kunci:
Named entity recognition, NER, Wikipedia, DBPedia, Nilai F1, Semi-Supervised,
Unlabeled Data
|
|