Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number T-1194 (Softcopy T-902) Source Code T-287; Mak T-006
Collection Type Tesis
Title Open Domain Information Extraction Otomatis dari Teks Bahasa Indonesia
Author Yohanes Gultom;
Publisher Depok: Fakultas Ilmu Komputer, 2017
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
T-1194 (Softcopy T-902) Source Code T-287; Mak T-006 TERSEDIA
Tidak ada review pada koleksi ini: 45019
ABSTRAK

ABSTRAK Nama : Yohanes Gultom Program Studi : Magister Ilmu Komputer Judul : Open Domain Information Extraction Otomatis dari Teks Bahasa Indonesia Banyaknya jumlah dokumen digital yang tersedia saat ini sudah melebihi kapasitas manusia untuk memprosesnya secara manual. Hal ini mendorong munculnya kebutuhan akan metode ekstrasi informasi (information extraction) otomatis dari teks atau dokumen digital dari berbagai domain (open domain). Sayangnya, setiap sistem open domain information extraction (open IE) yang ada saat ini hanya berlaku untuk satu bahasa tertentu saja dan belum ada sistem open IE untuk bahasa Indonesia yang dipublikasikan. Pada penelitian ini Penulis memperkenalkan sebuah sistem untuk mengekstraksi relasi antar entitas dari teks bahasa Indonesia dari berbagai domain. Sistem ini menggunakan sebuah NLP pipeline, pembangkit kandidat triple (triple candidates generator) dan pengembang token (token expander) berbasis aturan serta pemilih triple berbasis supervised learning. Setelah melakukan cross-validation terhadap empat kandidat model: logistic regression, SVM, MLP dan Random Forest, ditemukan bahwa Random Forest adalah classifier yang terbaik untuk dijadikan triple selector denan skor F1 0.58 (precision 0.62 dan recall 0.58). Penyebab utama skor yang masih rendah ini adalah aturan pembangkitan kandidat yang masih sederhana dan kualitas dataset yang masih rendah. Secara keseluruhan, efisiensi waktu proses sistem cukup baik. Namun presisi hasil ekstraksi masih sangat rendah disebabkan rendahnya kinerja NLP pipeline dan beberapa keterbatasan komponen token expander. Kata Kunci: information extraction, open domain, natural language processing, supervised learning, bahasa Indonesia vii