Perpustakaan Fakultas Ilmu Komputer

Call Number	T-1194 (Softcopy T-902) Source Code T-287; Mak T-006
Collection Type	Tesis
Title	Open Domain Information Extraction Otomatis dari Teks Bahasa Indonesia
Author	Yohanes Gultom;
Publisher	Depok: Fakultas Ilmu Komputer, 2017
Subject
Location	FASILKOM-UI;

Lokasi : Perpustakaan Fakultas Ilmu Komputer

Nomor Panggil	ID Koleksi	Status
T-1194 (Softcopy T-902) Source Code T-287; Mak T-006		TERSEDIA

T-1194 Yohanes Gulto-1506706345.pdf

Source Code T-1194.zip

Tidak ada review pada koleksi ini: 45019

ABSTRAK

ABSTRAK Nama : Yohanes Gultom Program Studi : Magister Ilmu Komputer Judul : Open Domain Information Extraction Otomatis dari Teks Bahasa Indonesia Banyaknya jumlah dokumen digital yang tersedia saat ini sudah melebihi kapasitas manusia untuk memprosesnya secara manual. Hal ini mendorong munculnya kebutuhan akan metode ekstrasi informasi (information extraction) otomatis dari teks atau dokumen digital dari berbagai domain (open domain). Sayangnya, setiap sistem open domain information extraction (open IE) yang ada saat ini hanya berlaku untuk satu bahasa tertentu saja dan belum ada sistem open IE untuk bahasa Indonesia yang dipublikasikan. Pada penelitian ini Penulis memperkenalkan sebuah sistem untuk mengekstraksi relasi antar entitas dari teks bahasa Indonesia dari berbagai domain. Sistem ini menggunakan sebuah NLP pipeline, pembangkit kandidat triple (triple candidates generator) dan pengembang token (token expander) berbasis aturan serta pemilih triple berbasis supervised learning. Setelah melakukan cross-validation terhadap empat kandidat model: logistic regression, SVM, MLP dan Random Forest, ditemukan bahwa Random Forest adalah classifier yang terbaik untuk dijadikan triple selector denan skor F1 0.58 (precision 0.62 dan recall 0.58). Penyebab utama skor yang masih rendah ini adalah aturan pembangkitan kandidat yang masih sederhana dan kualitas dataset yang masih rendah. Secara keseluruhan, efisiensi waktu proses sistem cukup baik. Namun presisi hasil ekstraksi masih sangat rendah disebabkan rendahnya kinerja NLP pipeline dan beberapa keterbatasan komponen token expander. Kata Kunci: information extraction, open domain, natural language processing, supervised learning, bahasa Indonesia vii