ABSTRAK
Nama : Ezra Pasha Ramadhansyah
Program Studi : Ilmu Komputer
Judul : Neural Re-Ranker untuk Mengidentifikasi Pertanyaan
Serupa pada Forum Kesehatan Berbahasa Indonesia
Pembimbing : Alfan Farizki Wicaksono, S.T., M.Sc., Ph.D.
Syifa Nurhayati, M.Kom
Sistem perolehan pertanyaan serupa diimplementasikan pada banyak situs tanya jawab,
khususnya pada forum tanya jawab kesehatan. Implementasi dari sistem pencarian
pertanyaan serupa dapat beragam seperti text based retriever dan neural ranker.
Permasalahan utama dari neural ranker adalah kurangnya penelitian dalam bahasa
indonesia untuk modelnya, khususnya untuk yang menggunakan BERT sebagai model
untuk deteksi pertanyaan serupa. Pada penelitian ini akan dicari tahu sejauh apa neural
re-ranker BERT dapat memperbaiki kualitas ranking dari text-based retriever jika
diterapkan fine-tuning pada model. Model yang digunakan oleh penelitian berupa BERT
dan test collection yang digunakan merupakan dataset forum kesehatan yang disusun
oleh Nurhayati (2019). Untuk mengetahui sejauh mana model berbasis BERT dapat
berguna untuk re-ranking, eksperimen dilakukan pada model pre-trained multilingual-
BERT, indoBERT, stevenWH, dan distilBERT untuk melihat model yang terbaik untuk
di-fine-tune. Penelitian juga mengusulkan dua metode fine-tuning yakni attention mask
filter dengan IDF dan freezed layer dengan melakukan freezing pada beberapa layer di
dalam BERT. Model dan metode ini kemudian diuji pada beberapa skenario yang telah
ditentukan. Hasil dari eksperimen menunjukkan bahwa re-ranker dapat meningkatkan
kualitas text based retriever bila di-fine-tune dengan metode dan skenario tertentu.
Beberapa model memberikan hasil yang lebih baik dengan dataset forum kesehatan
dan dengan text based retriever BM25 dan TF-IDF. Model multilingualBERT dan
metode fine-tuning layer freezing memberikan hasil yang terbaik dari semua kombinasi.
Kenaikan tertinggi terdapat pada kombinasi BM25 dan multilingualBERT dengan layer
freezing dengan kenaikan sebesar 0.051 dibandingkan BM25.
Kata kunci:
temu-balik informasi, neural re-ranker, pencarian pertanyaan serupa
|