ABSTRAK
ABSTRAK
Nama : Ilma Alpha Mannix
Program Studi : Ilmu Komputer
Judul : Pencarian Dosen Pakar Menggunakan Pre-Trained Language Model
BERT
Pembimbing : Evi Yulianti, Ph.D.
Penelitian ini bertujuan untuk menguji efektivitas pre-trained language model BERT
pada tugas pencarian dosen pakar. Bidirectional Encoder Representations from
Transformers (BERT) merupakan salah satu state-of-the-art model saat ini yang
menerapkan contextual word representation (contextual embedding). Dataset yang
digunakan pada penelitian ini terdiri dari data pakar dan bukti kepakaran. Data pakar
merupakan data dosen Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI).
Data bukti kepakaran merupakan data abstrak digital tugas akhir mahasiswa Fasilkom UI.
Model yang diusulkan pada penelitian ini terdiri dari tiga variasi BERT, yaitu IndoBERT
(Indonesian BERT), mBERT (Multilingual BERT), dan SciBERT (Scientific BERT)
yang akan dibandingkan dengan model baseline menggunakan word2vec. Terdapat dua
pendekatan yang dilakukan untuk mendapatkan urutan dosen pakar pada variasi model
BERT, yaitu pendekatan feature-based dan fine-tuning. Penelitian ini menunjukkan
bahwa model IndoBERT dengan pendekatan feature-based memberikan hasil yang lebih
baik dibandingkan baseline dengan peningkatan 6% untuk metrik MRR hingga 9% untuk
metrik NDCG@10. Pendekatan fine-tuning juga memberikan hasil yang lebih baik pada
model IndoBERT dibandingkan baseline dengan peningkatan 10% untuk metrik MRR
hingga 18% untuk metrik P@5. Diantara kedua pendekatan tersebut, dibuktikan bahwa
pendekatan fine-tuning memberikan hasil yang lebih baik dibandingkan dengan
pendekatan feature-based dengan peningkatan 1% untuk metrik P@10 hingga 5% untuk
metrik MRR. Penelitian ini menunjukkan bahwa penggunaan pre-trained language model
BERT memberikan hasil yang lebih baik dibandingkan baseline word2vec dalam tugas
pencarian dosen pakar.
Kata kunci:
pencarian pakar, contextual embedding, IndoBERT, SciBERT, mBERT, word2vec
|