ABSTRAK
Nama Penulis 1 / Program Studi : Michael Felix Haryono / Ilmu Komputer
Nama Penulis 2 / Program Studi : Rico Tadjudin / Ilmu Komputer
Judul : Gramatika: Dataset Sintetik untuk Grammatical Error Correction Bahasa Indonesia
Pembimbing : Dr. Ika Alfina, S.Kom., M.Kom.
Grammatical Error Correction (GEC) merupakan bagian dari Natural Language
Processing yang membahas suatu task untuk mendeteksi dan setelahnya mengoreksi
suatu teks. Pekerjaan tersebut mencakup pendeteksian dan pengoreksian kesalahan tata
bahasa, kesalahan ortografi, dan semantik. Perkembangan GEC untuk bahasa Indonesia
terkendala oleh sedikitnya dataset yang dapat digunakan untuk melatih model GEC.
Penelitian ini mengusulkan pendekatan rule-based untuk membangun sebuah dataset
sintetik yang mengandung kalimat salah secara tata bahasa baku bahasa Indonesia beserta
koreksinya. Hal tersebut dapat dilakukan dengan memanfaatkan kamus tesaurus bahasa
Indonesia dan alat bantuan NLP seperti tokenizer, part-of-speech tagger, morphological
analyzer, dan dependency parser untuk mengekstrak informasi konteks dari kalimat.
Kumpulan data sintetik dibangkitkan dengan menggunakan kalimat yang benar secara
tata bahasa dari halaman0halaman situs Wikipedia sebagai kalimat input. Dataset ini
menyediakan data dalam dua format yang berbeda, yaitu dalam format M2 dan dalam
bentuk pasangan kalimat salah dan benar. Pembangkitan kesalahan tata bahasa akan
memiliki 17 kemungkinan jenis kesalahan tata bahasa yang berbeda dengan total 16.898
kalimat salah yang dibentuk. Pengujian Gramatika dilakukan dengan melakukan evaluasi
secara manual mengenai ketepatan pembangkitan tiap kesalahan pada kalimat. Pengujian
manual dilakukan dengan melakukan stratified random sampling untuk mengambil
sampel 100 kalimat. Sampel tersebut minimal memiliki 5 contoh untuk setiap jenis
kesalahan tata bahasa. Dari pengevaluasian yang dilalukan oleh dua penguji, didapatkan
nilai accuracy sebesar 91,1%.
Kata kunci:
dataset sintetik, grammatical error correction, rule-based, bahasa Indonesia, format M2,
gramatika
|
|