Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1992 (Softcopy SK-1474)
Collection Type Skripsi
Title Dense Passage Retiever Pada Tugas Pencairan Pertanyaan Serupa Dengan Data Pertanyaan Forum Kesehatan
Author Mahardika Krisna Ihsani;
Publisher Depok:Fasilkom UI,2022
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1992 (Softcopy SK-1474) TERSEDIA
Tidak ada review pada koleksi ini: 50703
ABSTRAK Nama : Mahardika Krisna Ihsani Program Studi : Ilmu Komputer Judul : Dense Passage Retriever pada Tugas Pencarian Pertanyaan Serupa dengan Data Pertanyaan Forum Kesehatan Penelitian pada data berbahasa Inggris menemukan bahwa Dense Passage Retriever atau DPR mempunyai keterbatasan dalam hal menangani kondisi out-of-distribution data termasuk out-of-domain data. Saat ini, data latih berbahasa Indonesia yang bisa digunakan untuk melatih DPR cukup terbatas. Semua data latih tersebut berasal dari domain umum yang jika digunakan untuk melatih DPR mungkin menghasilkan performa yang rendah pada data uji dengan domain spesifik. Penelitian ini membandingkan antara performa DPR yang dilatih pada data latih dengan domain berbeda dengan domain data uji dan performa sparse retriever model untuk mengetahui apakah fenomena performa DPR yang tidak terlalu baik pada kondisi out-of-domain data juga terjadi pada bahasa Indonesia. Selain itu, penelitian ini mengevaluasi dua pendekatan untuk memperbaiki performa DPR dan mengatasi permasalahan keterbatasan data latih yakni pendekatan untuk memasukkan informasi exact-term matching kepada DPR dan pendekatan untuk mencoba melatih DPR pada beberapa jenis synthetic dataset berbahasa Indonesia. Hasil eksperimen menunjukkan bahwa performa DPR yang tidak terlalu baik pada data uji out-of-domain juga terjadi pada bahasa Indonesia yang ditunjukkan dengan skor evaluasi DPR yang relatif rendah terhadap skor evaluasi sparse retriever model. Selain itu, salah satu metode pemasukan informasi exact-term matching pada DPR yakni hybrid DPR-sparse retriever model menghasilkan skor BPref yang cenderung lebih baik dibandingkan skor BPref DPR pada seluruh eksperimen. Hasil pengujian pendekatan pelatihan DPR dengan synthetic dataset menunjukkan bahwa DPR yang dilatih dengan synthetic dataset pada penelitian ini menghasilkan skor BPref yang mengimbangi skor BPref DPR yang dilatih dengan data latih yang memang bisa digunakan untuk melatih DPR. Investigasi lebih lanjut pada hasil pengujian tersebut menunjukkan bahwa proses fine-tuning dan faktor domain data latih mungkin bisa mempengaruhi performa DPR. Selain itu, panjang token data latih dan faktor ukuran data latih tidak mempunyai korelasi terhadap performa DPR. Kata kunci: dense passage retriever, pencarian pertanyaan serupa kesehatan, out-of-domain, bahasa Indonesia, exact-term matching, synthetic dataset, isu data latih DPR