Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number Dis-89 (Softcopy Dis-80)
Collection Type Disertasi
Title Pengembangan Petunjuk Anotasi, Treebank dan Metode Rotasi Tree yang Mengacu ke Universal Dependencies v2 untuk Dependency Parsing Bahasa Indonesia
Author Ika Alfina;
Publisher Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
Subject
Location
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
Dis-89 (Softcopy Dis-80) TERSEDIA
Tidak ada review pada koleksi ini: 48599
ABSTRAK Nama : Ika Alfina Program Studi : Doktor Ilmu Komputer Judul : Pengembangan Petunjuk Anotasi, Treebank dan Metode Rotasi Tree yang Mengacu ke Universal Dependencies v2 untuk Dependency Parsing Bahasa Indonesia Promotor : Prof. Drs. Heru Suhartanto, M.Sc., Ph.D. Kopromotor : Dr. Indra Budi, S.Kom., M.Kom. Pada penelitian ini, kami ingin mengatasi masalah langkanya dataset untuk penelitian di bidang syntactic parsing untuk Bahasa Indonesia, terutama kurang tersedianya dependency treebank berbahasa Indonesia dalam kualitas yang baik. Adapun tujuan dari penelitian ada tiga: 1) mengusulkan petunjuk cara menganotasi dependency trebank untuk Bahasa Indonesia yang mengacu kepada aturan anotasi UD v2, 2) membangun dependency treebank yang dianotasi secara manual agar bisa berperan sebagai gold standard, 3) membangun sebuah dependency treebank dengan mengkonversi secara otomatis sebuah constituency treebank menjadi sebuah dependency treebank. Kami sudah membuat panduan anotasi untuk membangun dependency treebank untuk Bahasa Indonesia yang mengacu kepada aturan UD v2. Pedoman tersebut mencakup aturan tokenisasi/segmentasi kata, pelabelan kelas kata (POS tagging), analisis fitur morfologi, dan anotasi hubungan dependency antar kata. Kami mengusulkan bagaimana memproses klitika, kata ulang, dan singkatan pada tahap tokenisasi/segmentasi kata. Pada tahapan penentuan kelas kata, kami mengusulkan pemetaan dari daftar kata dalam Bahasa Indonesia ke 17 kelas kata yang didefinisikan oleh UD v2. Untuk anotasi fitur morfologi, kami telah memilih 14 dari 24 fitur morfologi UD v2 yang dinilai sesuai dengan aturan Bahasa Indonesia, berikut dengan 27 buah label feature-value yang bersesuaian dengan fitur morfologi terkait. Untuk anotasi hubungan dependency antarkata, kami mengusulkan penggunakan 14 buah label yang bersifat language-specific untuk menganotasi struktur sintaks yang khusus terdapat pada Bahasa Indonesia. Sebuah dependency treebank berbahasa Indonesia yang bisa digunakan sebagai gold standard sudah berhasil dibangun. Treebank ini dibuat dengan merevisi secara manual sebuah dependency treebank yang sudah ada. Revisi dilakukan dalam xi xii dua fase. Pada fase pertama dilakukan koreksi terhadap tokenisasi/segmentasi kata, pelabelan kelas kata, dan anotasi terhadap hubungan dependency antarkata. Pada fase kedua, selain dilakukan sedikit koreksi untuk perbaikan pada tahap satu, ditambahkan juga informasi kata dasar (lemma) dan fitur morfologi. Evaluasi terhadap kualitas treebank yang baru dilakukan dengan membangun model dependency parser menggunakan UDPipe. Hasil pengujian menunjukkan bahwa kami berhasil meningkatkan kualitas treebank, yang ditunjukkan dengan naiknya UAS sebanyak 9% dan LAS sebanyak 14%. Terkait tujuan penelitian ketiga, kami juga sudah membangun sebuah treebank baru dengan mengkonversi secara otomatis sebuah constituency treebank ke dependency treebank. Pada proyek ini, kami mengusulkan sebuah metode rotasi tree yang bertujuan mengubah dependency tree awal yang dihasilkan oleh alat NLP untuk Bahasa Inggris bernama Stanford UD converter sedemikan agar head-directionality dari frase kata benda yang dihasilkan sesuai dengan aturan Bahasa Indonesia yang umumnya bersifat head-initial. Kami menamakan algoritma yang dihasilkan sebagai algoritma headSwap dan algoritma compound. Hasil percobaan menunjukkan bahwa metode rotasi tree yang diusulkan berhasil meningkatkan performa UAS sebanyak 32.5%. Kata kunci: dependency parsing, head-directionality, panduan anotasi, rotasi tree, treebank