ABSTRAK
ABSTRAK
Nama : Yohanes Gultom
Program Studi : Magister Ilmu Komputer
Judul : Open Domain Information Extraction Otomatis dari Teks
Bahasa Indonesia
Banyaknya jumlah dokumen digital yang tersedia saat ini sudah melebihi kapasitas
manusia untuk memprosesnya secara manual. Hal ini mendorong munculnya
kebutuhan akan metode ekstrasi informasi (information extraction) otomatis dari
teks atau dokumen digital dari berbagai domain (open domain). Sayangnya, setiap
sistem open domain information extraction (open IE) yang ada saat ini hanya
berlaku untuk satu bahasa tertentu saja dan belum ada sistem open IE untuk bahasa
Indonesia yang dipublikasikan. Pada penelitian ini Penulis memperkenalkan
sebuah sistem untuk mengekstraksi relasi antar entitas dari teks bahasa Indonesia
dari berbagai domain. Sistem ini menggunakan sebuah NLP pipeline, pembangkit
kandidat triple (triple candidates generator) dan pengembang token (token expander)
berbasis aturan serta pemilih triple berbasis supervised learning. Setelah
melakukan cross-validation terhadap empat kandidat model: logistic regression,
SVM, MLP dan Random Forest, ditemukan bahwa Random Forest adalah classifier
yang terbaik untuk dijadikan triple selector denan skor F1 0.58 (precision 0.62
dan recall 0.58). Penyebab utama skor yang masih rendah ini adalah aturan
pembangkitan kandidat yang masih sederhana dan kualitas dataset yang masih
rendah. Secara keseluruhan, efisiensi waktu proses sistem cukup baik. Namun
presisi hasil ekstraksi masih sangat rendah disebabkan rendahnya kinerja NLP
pipeline dan beberapa keterbatasan komponen token expander.
Kata Kunci:
information extraction, open domain, natural language processing, supervised
learning, bahasa Indonesia
vii
|