Call Number | SK-2323 (Softcopy SK-1805) |
Collection Type | Skripsi |
Title | Identifikasi Otomatis Pertanyaan Duplikat pada Forum Kesehatan Berbahasa Indonesia dengan Memanfaatkan Learning-To-Rank |
Author | Febi Imanuela; |
Publisher | Depok: Fasilkom UI, 2024 |
Subject | Learning-To-Rank |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
SK-2323 (Softcopy SK-1805) | TERSEDIA |
Nama : Febi Imanuela Program Studi : Ilmu Komputer Judul : Identifikasi Otomatis Pertanyaan Duplikat pada Forum Kesehatan Berbahasa Indonesia dengan Memanfaatkan Learning-to-Rank Pembimbing : Alfan Farizki Wicaksono, Ph.D. Syifa Nurhayati, M.Kom. Perkembangan teknologi pada bidang kesehatan di Indonesia telah menghadirkan layanan konsultasi dengan dokter melalui forum tanya jawab kesehatan. Seiring dengan berjalannya waktu, muncul permasalahan pertanyaan duplikat pada forum. Permasalahan ini perlu ditangani agar dapat mempercepat proses pengembalian jawaban untuk keluhan yang serupa dan menjaga jumlah pertanyaan agar tetap scalable dengan kapasitas dokter penjawab. Namun, pertanyaan duplikat merupakan suatu tantangan tersendiri karena kompleksitas bahasa natural. Penelitian ini memanfaatkan pendekatan Information Retrieval untuk mengidentifikasi pasangan pertanyaan duplikat pada domain ini sebagai suatu pasangan query dan dokumen yang relevan. Setelah melakukan ranking awal menggunakan BM25 sebagai model baseline, performa hasil ranking ditingkatkan melalui proses re-ranking menggunakan model learning-to-rank LambdaMART yang berbasis fitur. Penelitian ini memanfaatkan fitur perhitungan jarak dan similaritas antara pasangan vektor representasi query dan dokumen, yang diperoleh dari model word embeddings dan transformer. Selain itu, diusulkan fitur scoring yang diperoleh dari model Cross Encoder, serta model BM25 yang menjadi model baseline. Penelitian ini juga mengusulkan fitur-fitur yang mempertimbangkan jumlah keywords gagasan utama query yang dikandung dokumen. Evaluasi eksperimen dilakukan menggunakan cross validation dan error analysis, dengan MRR sebagai metrik utama. Performa tertinggi yang dicapai eksperimen adalah MRR senilai 0,951 dengan p value senilai 0,016 yang signifikan terhadap baseline. Dengan demikian, penelitian ini menunjukkan dukungan empiris terhadap peningkatan efektivitas model re-ranking yang diusulkan untuk melakukan identifikasi otomatis terhadap karakteristik query dan dokumen yang relevan, yakni pasangan pertanyaan duplikat dalam konteks ini. Kata kunci: identifikasi pertanyaan duplikat, forum kesehatan, learning-to-rank, model berbasis fitur, re-ranking