ABSTRAK
Nama : Mahardika Krisna Ihsani
Program Studi : Ilmu Komputer
Judul : Dense Passage Retriever pada Tugas Pencarian Pertanyaan
Serupa dengan Data Pertanyaan Forum Kesehatan
Penelitian pada data berbahasa Inggris menemukan bahwa Dense Passage Retriever
atau DPR mempunyai keterbatasan dalam hal menangani kondisi out-of-distribution
data termasuk out-of-domain data. Saat ini, data latih berbahasa Indonesia yang bisa
digunakan untuk melatih DPR cukup terbatas. Semua data latih tersebut berasal dari
domain umum yang jika digunakan untuk melatih DPR mungkin menghasilkan performa
yang rendah pada data uji dengan domain spesifik.
Penelitian ini membandingkan antara performa DPR yang dilatih pada data latih
dengan domain berbeda dengan domain data uji dan performa sparse retriever model
untuk mengetahui apakah fenomena performa DPR yang tidak terlalu baik pada
kondisi out-of-domain data juga terjadi pada bahasa Indonesia. Selain itu, penelitian
ini mengevaluasi dua pendekatan untuk memperbaiki performa DPR dan mengatasi
permasalahan keterbatasan data latih yakni pendekatan untuk memasukkan informasi
exact-term matching kepada DPR dan pendekatan untuk mencoba melatih DPR pada
beberapa jenis synthetic dataset berbahasa Indonesia.
Hasil eksperimen menunjukkan bahwa performa DPR yang tidak terlalu baik pada
data uji out-of-domain juga terjadi pada bahasa Indonesia yang ditunjukkan dengan
skor evaluasi DPR yang relatif rendah terhadap skor evaluasi sparse retriever model.
Selain itu, salah satu metode pemasukan informasi exact-term matching pada DPR yakni
hybrid DPR-sparse retriever model menghasilkan skor BPref yang cenderung lebih baik
dibandingkan skor BPref DPR pada seluruh eksperimen. Hasil pengujian pendekatan
pelatihan DPR dengan synthetic dataset menunjukkan bahwa DPR yang dilatih dengan
synthetic dataset pada penelitian ini menghasilkan skor BPref yang mengimbangi skor
BPref DPR yang dilatih dengan data latih yang memang bisa digunakan untuk melatih
DPR. Investigasi lebih lanjut pada hasil pengujian tersebut menunjukkan bahwa proses
fine-tuning dan faktor domain data latih mungkin bisa mempengaruhi performa DPR.
Selain itu, panjang token data latih dan faktor ukuran data latih tidak mempunyai korelasi
terhadap performa DPR.
Kata kunci:
dense passage retriever, pencarian pertanyaan serupa kesehatan, out-of-domain, bahasa
Indonesia, exact-term matching, synthetic dataset, isu data latih DPR
|
|