Call Number | T-1387 (Softcopy T-1096) MAK PI-187 TR-CSUI-060 Source Code-380 |
Collection Type | Tesis |
Title | AC-Iquad: Automatically Constructed Indonesia Question Dataset by Leveraging Wikidata |
Author | Kerenza Doxolodeo; |
Publisher | Depok, Fasilkom UI, 2023 |
Subject | Datasets |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
T-1387 (Softcopy T-1096) MAK PI-187 TR-CSUI-060 Source Code-380 | TERSEDIA |
Nama : Kerenza Doxolodeo Program Studi : Computer Science Judul : AC-IQuAD: Konstruksi Otomatis Dataset Pertanyaan Ba- hasa Indonesia dengan Wikidata Konstruksi dataset QA membutuhkan akses ke sumber daya dan finansial yang tidak kecil, sehingga dataset untuk bahasa-bahasa yang kurang dipelajari seperti Ba- hasa Indonesia minim. Studi ini mengkonstruksi dataset QA Indonesia yang dibuat secara otomatis dari awal hingga akhir. Proses dimulai dengan mengambil tripel dari Wikidata dan mengkonversikan tripel tersebut menjadi pertanyaan menggu- nakan CFG. Teks konteks dicari dari korpus Wikipedia Bahasa Indonesia dengan heuristik untuk mencari teks yang sesuai. Pertanyaan-pertanyaan tersebut dival- idasi dengan model M-BERT yang fungsinya sebagai proxy model yang menilai kelayakan pertanyaan. Dataset terdiri dari 134 ribu baris pertanyaan simpel dan 60 ribu pertanyaan kompleks yang menggandung dua buah fakta dalam satu per- tanyaan. Untuk pertanyaan simpel dataset mendapatkan evaluasi yang mirip oleh manusia (72% AC-IQuAD vs 67% SQuAD terjemahan) dan model QA Indonesia yang terbaik adalah yang menggabungkan dataset SQuAD Inggris dan AC-IQuAD (F1 57.03 terhadap dataset TydiQA). Keywords: NLP, Knowledge Graph, Unsupervised Question Answering.