ABSTRAK
Nama
: Kerenza Doxolodeo
Program Studi : Computer Science
Judul
: AC-IQuAD: Konstruksi Otomatis Dataset Pertanyaan Ba-
hasa Indonesia dengan Wikidata
Konstruksi dataset QA membutuhkan akses ke sumber daya dan finansial yang
tidak kecil, sehingga dataset untuk bahasa-bahasa yang kurang dipelajari seperti Ba-
hasa Indonesia minim. Studi ini mengkonstruksi dataset QA Indonesia yang dibuat
secara otomatis dari awal hingga akhir. Proses dimulai dengan mengambil tripel
dari Wikidata dan mengkonversikan tripel tersebut menjadi pertanyaan menggu-
nakan CFG. Teks konteks dicari dari korpus Wikipedia Bahasa Indonesia dengan
heuristik untuk mencari teks yang sesuai. Pertanyaan-pertanyaan tersebut dival-
idasi dengan model M-BERT yang fungsinya sebagai proxy model yang menilai
kelayakan pertanyaan. Dataset terdiri dari 134 ribu baris pertanyaan simpel dan
60 ribu pertanyaan kompleks yang menggandung dua buah fakta dalam satu per-
tanyaan. Untuk pertanyaan simpel dataset mendapatkan evaluasi yang mirip oleh
manusia (72% AC-IQuAD vs 67% SQuAD terjemahan) dan model QA Indonesia
yang terbaik adalah yang menggabungkan dataset SQuAD Inggris dan AC-IQuAD
(F1 57.03 terhadap dataset TydiQA).
Keywords: NLP, Knowledge Graph, Unsupervised Question Answering.
|