ABSTRAK
ABSTRAK
Nama : Mirza Alim Mutasodirin
Program Studi : Magister Ilmu Komputer
Judul : IndoGrad: Adaptasi Skema Winograd Bahasa Indonesia untuk Resolusi Kata Ganti yang Membutuhkan Penalaran
Penelitian pada pengolahan bahasa manusia tentang resolusi kata ganti yang membutuhkan penalaran menjadi sangat penting agar mesin mampu menyelesaikan tugas dengan
tingkat kesulitan yang lebih tinggi dari resolusi kata ganti biasa. Mesin dituntut untuk
mampu menyelesaikan tugas tersebut yang membutuhkan penalaran seperti yang dimiliki otak manusia. Penelitian tentang ini sudah berjalan selama satu dekade terakhir pada
Bahasa Inggris, yang disebut dengan the Winograd Schema Challenge (WSC). Namun,
sepanjang pencarian kami, belum ditemukan sama sekali penelitian tentang ini pada Bahasa Indonesia. Kami menginisiasi penelitian tentang WSC pada Bahasa Indonesia dengan membangun dataset baru yang diadaptasi dari dataset WSC berbahasa Inggris yang
sudah ada. Dataset baru ini diberi nama IndoGrad (Indonesian Winograd). IndoGrad
memiliki 1.134 data latih, 284 data validasi, dan 318 data uji dengan format cloze-style.
Untuk menguji kelayakan data ujinya, IndoGrad diujikan kepada tiga orang manusia pemegang gelar sarjana dan disimpulkan bahwa data ujinya bisa dijawab oleh manusia dengan akurasi tinggi. Performa manusia secara Full-Agreement yang didapatkan adalah
94,0% akurasi dan secara Majority-Agreement adalah 97,8% akurasi. Kelayakan data latihnya disimpulkan dari bisanya data latih dipelajari oleh model sehingga mendapatkan
training accuracy mendekati 100%. Dua belas pretrained models berbasis BERT diuji
untuk mengukur performa mereka terhadap dataset ini. Performa deep learning model
terbaik yang didapatkan adalah 62,58% akurasi oleh IndoBERT-Large dan 68,86% akurasi oleh XLM-RoBERTa-Large. Hasil ini masih jauh dari performa manusia dan perlu
penelitian lebih lanjut di masa depan.
Kata kunci:
indograd, skema winograd, resolusi kata ganti, penalaran, bahasa indonesia.
|