ABSTRAK
Nama : Muhammad Yudistira Hanifmuti
Program Studi : Ilmu Komputer
Judul : Pengembangan Tokenizer dan Morphological Analyzer
Universal untuk Bahasa Indonesia Menggunakan FiniteState Transducer
Morphological analyzer merupakan sebuah alat yang digunakan untuk melihat
bagaimana proses pembentukan kata, menentukan kata dasar pembentuk, dan mengetahui informasi linguistik yang terkandung pada suatu kata. Universal Dependencies
(UD) merupakan sebuah framework acuan yang digunakan pada proses anotasi morfologi
untuk berbagai bahasa. Sayangnya, belum ditemukan morphological analyzer untuk
bahasa Indonesia yang menerapkan pedoman UD ini. Penelitian ini mengembangkan
morphological analyzer untuk bahasa Indonesia yang diberi nama Aksara. Aksara
dibangun menggunakan finite state compiler bernama Foma yang digunakan pada Morphind, morphological analyzer pada penelitian sebelumnya. Foma dapat memodelkan
aturan-aturan pembentukan kata dalam bentuk finite state transducer. Pada Aksara
juga dikembangkan tokenizer yang hasilnya menyesuaikan dengan hasil tokenisasi pada
treebank UD. Implementasi Aksara menerapkan pedoman UD versi terbaru yaitu UDv2.
Pengujian Aksara dilakukan dengan membandingkan performa Aksara dengan Morhpind.
Hasil pengujian menunjukkan bahwa komponen tokenizer Aksara berhasil memiliki
akurasi tokenisasi sebesar 96.60%, meningkat 23.89% dari akurasi tokenisasi oleh Morphind. Evaluasi POS tagging Aksara juga berhasil melewati hasil pemetaan Morphind
dengan akurasi F1-score sebesar 87%, dengan kenaikan relatif sebesar 18% dari baseline.
Kata kunci:
Bahasa Indonesia, finite-state transducer, morphological analyzer, tokenisasi, dan
Universal Dependencies.
|
|