Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number T-1387 (Softcopy T-1096) MAK PI-187 TR-CSUI-060 Source Code-380
Collection Type Tesis
Title AC-Iquad: Automatically Constructed Indonesia Question Dataset by Leveraging Wikidata
Author Kerenza Doxolodeo;
Publisher Depok, Fasilkom UI, 2023
Subject Datasets
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
T-1387 (Softcopy T-1096) MAK PI-187 TR-CSUI-060 Source Code-380 TERSEDIA
Tidak ada review pada koleksi ini: 54655
ABSTRAK

Nama : Kerenza Doxolodeo Program Studi : Computer Science Judul : AC-IQuAD: Konstruksi Otomatis Dataset Pertanyaan Ba- hasa Indonesia dengan Wikidata Konstruksi dataset QA membutuhkan akses ke sumber daya dan finansial yang tidak kecil, sehingga dataset untuk bahasa-bahasa yang kurang dipelajari seperti Ba- hasa Indonesia minim. Studi ini mengkonstruksi dataset QA Indonesia yang dibuat secara otomatis dari awal hingga akhir. Proses dimulai dengan mengambil tripel dari Wikidata dan mengkonversikan tripel tersebut menjadi pertanyaan menggu- nakan CFG. Teks konteks dicari dari korpus Wikipedia Bahasa Indonesia dengan heuristik untuk mencari teks yang sesuai. Pertanyaan-pertanyaan tersebut dival- idasi dengan model M-BERT yang fungsinya sebagai proxy model yang menilai kelayakan pertanyaan. Dataset terdiri dari 134 ribu baris pertanyaan simpel dan 60 ribu pertanyaan kompleks yang menggandung dua buah fakta dalam satu per- tanyaan. Untuk pertanyaan simpel dataset mendapatkan evaluasi yang mirip oleh manusia (72% AC-IQuAD vs 67% SQuAD terjemahan) dan model QA Indonesia yang terbaik adalah yang menggabungkan dataset SQuAD Inggris dan AC-IQuAD (F1 57.03 terhadap dataset TydiQA). Keywords: NLP, Knowledge Graph, Unsupervised Question Answering.