Tidak ada review pada koleksi ini: 48599
ABSTRAK
Nama : Ika Alfina
Program Studi : Doktor Ilmu Komputer
Judul : Pengembangan Petunjuk Anotasi, Treebank dan Metode
Rotasi Tree yang Mengacu ke Universal Dependencies v2
untuk Dependency Parsing Bahasa Indonesia
Promotor : Prof. Drs. Heru Suhartanto, M.Sc., Ph.D.
Kopromotor : Dr. Indra Budi, S.Kom., M.Kom.
Pada penelitian ini, kami ingin mengatasi masalah langkanya dataset untuk penelitian di bidang syntactic parsing untuk Bahasa Indonesia, terutama kurang tersedianya dependency treebank berbahasa Indonesia dalam kualitas yang baik. Adapun
tujuan dari penelitian ada tiga: 1) mengusulkan petunjuk cara menganotasi dependency trebank untuk Bahasa Indonesia yang mengacu kepada aturan anotasi UD
v2, 2) membangun dependency treebank yang dianotasi secara manual agar bisa
berperan sebagai gold standard, 3) membangun sebuah dependency treebank dengan mengkonversi secara otomatis sebuah constituency treebank menjadi sebuah
dependency treebank.
Kami sudah membuat panduan anotasi untuk membangun dependency treebank
untuk Bahasa Indonesia yang mengacu kepada aturan UD v2. Pedoman tersebut
mencakup aturan tokenisasi/segmentasi kata, pelabelan kelas kata (POS tagging),
analisis fitur morfologi, dan anotasi hubungan dependency antar kata. Kami mengusulkan bagaimana memproses klitika, kata ulang, dan singkatan pada tahap tokenisasi/segmentasi kata. Pada tahapan penentuan kelas kata, kami mengusulkan
pemetaan dari daftar kata dalam Bahasa Indonesia ke 17 kelas kata yang didefinisikan oleh UD v2. Untuk anotasi fitur morfologi, kami telah memilih 14 dari 24
fitur morfologi UD v2 yang dinilai sesuai dengan aturan Bahasa Indonesia, berikut
dengan 27 buah label feature-value yang bersesuaian dengan fitur morfologi terkait.
Untuk anotasi hubungan dependency antarkata, kami mengusulkan penggunakan 14
buah label yang bersifat language-specific untuk menganotasi struktur sintaks yang
khusus terdapat pada Bahasa Indonesia.
Sebuah dependency treebank berbahasa Indonesia yang bisa digunakan sebagai
gold standard sudah berhasil dibangun. Treebank ini dibuat dengan merevisi secara manual sebuah dependency treebank yang sudah ada. Revisi dilakukan dalam
xi
xii
dua fase. Pada fase pertama dilakukan koreksi terhadap tokenisasi/segmentasi kata,
pelabelan kelas kata, dan anotasi terhadap hubungan dependency antarkata. Pada
fase kedua, selain dilakukan sedikit koreksi untuk perbaikan pada tahap satu, ditambahkan juga informasi kata dasar (lemma) dan fitur morfologi. Evaluasi terhadap kualitas treebank yang baru dilakukan dengan membangun model dependency parser menggunakan UDPipe. Hasil pengujian menunjukkan bahwa kami
berhasil meningkatkan kualitas treebank, yang ditunjukkan dengan naiknya UAS
sebanyak 9% dan LAS sebanyak 14%.
Terkait tujuan penelitian ketiga, kami juga sudah membangun sebuah treebank baru
dengan mengkonversi secara otomatis sebuah constituency treebank ke dependency
treebank. Pada proyek ini, kami mengusulkan sebuah metode rotasi tree yang bertujuan mengubah dependency tree awal yang dihasilkan oleh alat NLP untuk Bahasa Inggris bernama Stanford UD converter sedemikan agar head-directionality
dari frase kata benda yang dihasilkan sesuai dengan aturan Bahasa Indonesia yang
umumnya bersifat head-initial. Kami menamakan algoritma yang dihasilkan sebagai algoritma headSwap dan algoritma compound. Hasil percobaan menunjukkan
bahwa metode rotasi tree yang diusulkan berhasil meningkatkan performa UAS sebanyak 32.5%.
Kata kunci:
dependency parsing, head-directionality, panduan anotasi, rotasi tree, treebank