ABSTRAK
Nama : Ilma Alpha Mannix
Program Studi : Magister Ilmu Komputer
Judul : Pencarian Dosen Pakar Menggunakan Kombinasi
Semantic Matching IndoBERT dan Textual Matching BM25
Pembimbing : Evi Yulianti, Ph.D.
Pencarian dosen pakar memiliki berbagai manfaat, termasuk mendukung kolaborasi
penelitian. Namun, penelitian tugas pencarian pakar ini masih jarang dilakukan. Sebagian
besar penelitian hanya mengandalkan satu model machine learning yang masing-masing
memiliki kelemahan tersendiri. Model semantic matching, seperti IndoBERT, kurang
optimal dalam menangkap exact match, sementara model textual matching, seperti
BM25, menghadapi masalah vocabulary mismatch. Penelitian ini bertujuan menguji
efektivitas tugas pencarian dosen pakar menggunakan kombinasi semantic matching
IndoBERT dan textual matching BM25 pada dataset human judgment bidang kepakaran
di Fakultas Ilmu Komputer Universitas Indonesia dalam bahasa Indonesia.
Tugas pencarian dosen pakar terdiri dari tiga komponen utama, yaitu pakar, bukti
kepakaran, dan kepakaran. Data pakar merupakan data dosen Fakultas Ilmu Komputer
Universitas Indonesia (Fasilkom UI). Data bukti kepakaran menggunakan data digital
tugas akhir mahasiswa Fasilkom UI. Data kepakaran terdiri dari bidang-bidang kepakaran
dalam domain Ilmu Komputer. Penelitian ini menggunakan kombinasi linear, two stage
retrieval, dan query expansion untuk menggabungkan kedua model.
Hasil evaluasi menggunakan kombinasi linear dapat meningkatkan 2–9% nilai P@5
dibandingkan baseline. Dengan menggunakan initial ranking BM25 dapat meningkatkan
4–8.5% nilai MRR dibandingkan baseline. Sementara itu, initial ranking IndoBERT
dapat meningkatkan 7–15% nilai MAP dibandingkan baseline. Penggunaan query
expansion dapat meningkatkan 4–9% nilai NDCG@5 dibandingkan baseline. Hasil
evaluasi menunjukkan bahwa kombinasi model IndoBERT dan BM25 menghasilkan
performa yang lebih baik dibandingkan penggunaan satu model saja. Dari ketiga metode
kombinasi, jika fokus utamanya adalah mengidentifikasi 10 pakar teratas, maka penelitian
ini menyarankan menggunakan kombinasi two stage retrieval. Penelitian selanjutnya
disarankan untuk menggunakan large language models (LLM) dan mengembangkan
teknik lain, seperti melakukan ringkasan judul-judul bukti kepakaran dengan pemberian
bobot berdasarkan jenis tugas akhir dan peran pakar sebagai pembimbing.
Kata kunci:
Pencarian pakar; semantic matching; IndoBERT; textual matching; BM25; kombinasi
linear; two stage retrieval; query expansion
|