ABSTRAK
Nama : Febi Imanuela
Program Studi : Ilmu Komputer
Judul : Identifikasi Otomatis Pertanyaan Duplikat pada Forum
Kesehatan Berbahasa Indonesia dengan Memanfaatkan
Learning-to-Rank
Pembimbing : Alfan Farizki Wicaksono, Ph.D.
Syifa Nurhayati, M.Kom.
Perkembangan teknologi pada bidang kesehatan di Indonesia telah menghadirkan
layanan konsultasi dengan dokter melalui forum tanya jawab kesehatan. Seiring dengan
berjalannya waktu, muncul permasalahan pertanyaan duplikat pada forum. Permasalahan
ini perlu ditangani agar dapat mempercepat proses pengembalian jawaban untuk keluhan
yang serupa dan menjaga jumlah pertanyaan agar tetap scalable dengan kapasitas dokter
penjawab. Namun, pertanyaan duplikat merupakan suatu tantangan tersendiri karena
kompleksitas bahasa natural. Penelitian ini memanfaatkan pendekatan Information
Retrieval untuk mengidentifikasi pasangan pertanyaan duplikat pada domain ini sebagai
suatu pasangan query dan dokumen yang relevan. Setelah melakukan ranking awal
menggunakan BM25 sebagai model baseline, performa hasil ranking ditingkatkan
melalui proses re-ranking menggunakan model learning-to-rank LambdaMART yang
berbasis fitur. Penelitian ini memanfaatkan fitur perhitungan jarak dan similaritas antara
pasangan vektor representasi query dan dokumen, yang diperoleh dari model word
embeddings dan transformer. Selain itu, diusulkan fitur scoring yang diperoleh dari
model Cross Encoder, serta model BM25 yang menjadi model baseline. Penelitian
ini juga mengusulkan fitur-fitur yang mempertimbangkan jumlah keywords gagasan
utama query yang dikandung dokumen. Evaluasi eksperimen dilakukan menggunakan
cross validation dan error analysis, dengan MRR sebagai metrik utama. Performa
tertinggi yang dicapai eksperimen adalah MRR senilai 0,951 dengan p value senilai
0,016 yang signifikan terhadap baseline. Dengan demikian, penelitian ini menunjukkan
dukungan empiris terhadap peningkatan efektivitas model re-ranking yang diusulkan
untuk melakukan identifikasi otomatis terhadap karakteristik query dan dokumen yang
relevan, yakni pasangan pertanyaan duplikat dalam konteks ini.
Kata kunci:
identifikasi pertanyaan duplikat, forum kesehatan, learning-to-rank, model berbasis fitur,
re-ranking
|