Nama : Steven Wiryadinata Halim
Program Studi : Ilmu Komputer
Judul : Pengenalan Entitas Kesehatan pada Indonesian Consumer
Health Documents Menggunakan Continued Pre-Training
dan Self-Training
Pembimbing : Alfan Farizki Wicaksono Ph.D.
Rahmad Mahendra M.Sc.
Penelitian tentang pengenalan entitas kesehatan pada dokumen berbahasa Indonesia
bermanfaat untuk pengembangan sistem tanya-jawab kesehatan otomatis dan mendukung
percepatan akses informasi kesehatan bagi rakyat Indonesia. Namun, penelitian tersebut
masih terkendala pada kurangnya data berlabel sehingga kinerja model pengenalan entitas
kesehatan belum optimal jika diterapkan pada data tekstual berbahasa Indonesia. Berbeda
dengan data berlabel, data tidak berlabel mempunyai ukuran yang besar dan bisa dengan
mudah untuk dikumpulkan. Pekerjaan pada tugas akhir ini melakukan eksplorasi dua
pendekatan semi-supervised learning untuk mengangkat performa model memanfaatkan
data tidak berlabel: (1) Continued Pre-Training dan (2) Self-Training.
Penelitian dimulai dengan membandingkan empat pre-trained language model yang
diharapkan dapat menjadikan model efektif, yaitu (1) ’hunflair’ yang dilatih pada teks
biomedis berbahasa Inggris, (2) ’indobert-base-p2’ yang merupakan state-of-the-art language model berbahasa Indonesia secara umum berdasarkan BERT model , (3) ’abidbioner’ yang berupa model berbasis XLM-Roberta yang terlatih pada data biomedis
berbahasa Indonesia, dan (4) ’distilbert-base-indonesian’ yang merupakan pre-trained
model berbahasa Indonesia secara umum dan telah dipergunakan dalam penelitian terbaru
mengenai pengenalan entitas kesehatan dalam forum tanya jawab kesehatan menggunakan BERT. Hasil eksperimen menunjukkan bahwa model ’abid-bioner’ mendapatkan ratarata skor micro avg 0.6136 dan memberikan performa terbaik dan sekaligus menyarankan
bahwa, dalam konteks deteksi entitas kesehatan, proses adaptasi parameter pada suatu
model tidak cukup hanya memanfaatkan data dengan bahasa yang sama tetapi juga perlu
berasal dari domain yang sama, yaitu domain kesehatan.
Berdasarkan hasil eksperimen tersebut, data tidak berlabel yang berasal dari domain
kesehatan yang sama perlu dieksploitasi lebih lanjut setidaknya dengan dua pendekatan.
Pendekatan pertama adalah Continued Pre-Training terhadap pre-trained language model
yang dilakukan agar model bisa lebih adaptif terhadap tugas spesifik yang diselesaikan,
yaitu pengenalan entitas bernama pada dokumen Consumer Health berbahasa Indonesia.
Pendekatan kedua adalah Self-Training yang memanfaatkan pseudo-label dari data tidak
berlabel untuk memperbesar data yang digunakan untuk melatih model.
Hasil eksperimen yang dilakukan menunjukkan bahwa kedua pendekatan Semisupervised Learning yang dilakukan baik Continued Pre-training dan Self-training
mampu meningkatkan performa model. Peningkatan performa ini juga diuji menggunakan Almost Stochastic Order(ASO) dan dapat dinyatakan bahwa penggunaan dengan
pendekatan Semi-supervised Learning yang dilakukan memiliki peningkatan yang
signifikan. Dengan metode Continued Pre-training, semakin banyak data tidak berlabel
yang digunakan untuk Task adaptation Pre-training semakin meningkatkan performa
yang dimiliki model dan dalam penelitian ini terbukti bahwa dapat meningkatkan
performa hingga 1.17 persen jika dibandingkan dengan pre-trained language model
terbaik. Selain itu, pendekatan dengan Meta Self-Training tidak berhasil meningkatkan
performa model, namun pendekatan Self-training secara umum berhasil mengungguli
hingga 4.74 persen dari model Continued Pre-training dan 5.91 persen dari pre-trained
language model.
Kata kunci:
Continued Pre-training, Task adaptation Pre-training, Semi-supervised Learning,
Self-Training, Pengenalan Entitas Kesehatan, Data Tidak Berlabel.
|
|