Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-2073 (Softcopy SK-1555), Source Code Sk-784)
Collection Type Skripsi
Title Pengenalan Entitas Kesehatan pada Indonesian Consumer Health Documents Menggunakan Continued Pre-Training dan Self-Training
Author Steven Wiryadinata Halim;
Publisher Depok: Fakultas Ilmu Komputer UI, 2022
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-2073 (Softcopy SK-1555), Source Code Sk-784) TERSEDIA
Tidak ada review pada koleksi ini: 51202
Nama : Steven Wiryadinata Halim Program Studi : Ilmu Komputer Judul : Pengenalan Entitas Kesehatan pada Indonesian Consumer Health Documents Menggunakan Continued Pre-Training dan Self-Training Pembimbing : Alfan Farizki Wicaksono Ph.D. Rahmad Mahendra M.Sc. Penelitian tentang pengenalan entitas kesehatan pada dokumen berbahasa Indonesia bermanfaat untuk pengembangan sistem tanya-jawab kesehatan otomatis dan mendukung percepatan akses informasi kesehatan bagi rakyat Indonesia. Namun, penelitian tersebut masih terkendala pada kurangnya data berlabel sehingga kinerja model pengenalan entitas kesehatan belum optimal jika diterapkan pada data tekstual berbahasa Indonesia. Berbeda dengan data berlabel, data tidak berlabel mempunyai ukuran yang besar dan bisa dengan mudah untuk dikumpulkan. Pekerjaan pada tugas akhir ini melakukan eksplorasi dua pendekatan semi-supervised learning untuk mengangkat performa model memanfaatkan data tidak berlabel: (1) Continued Pre-Training dan (2) Self-Training. Penelitian dimulai dengan membandingkan empat pre-trained language model yang diharapkan dapat menjadikan model efektif, yaitu (1) ’hunflair’ yang dilatih pada teks biomedis berbahasa Inggris, (2) ’indobert-base-p2’ yang merupakan state-of-the-art language model berbahasa Indonesia secara umum berdasarkan BERT model , (3) ’abidbioner’ yang berupa model berbasis XLM-Roberta yang terlatih pada data biomedis berbahasa Indonesia, dan (4) ’distilbert-base-indonesian’ yang merupakan pre-trained model berbahasa Indonesia secara umum dan telah dipergunakan dalam penelitian terbaru mengenai pengenalan entitas kesehatan dalam forum tanya jawab kesehatan menggunakan BERT. Hasil eksperimen menunjukkan bahwa model ’abid-bioner’ mendapatkan ratarata skor micro avg 0.6136 dan memberikan performa terbaik dan sekaligus menyarankan bahwa, dalam konteks deteksi entitas kesehatan, proses adaptasi parameter pada suatu model tidak cukup hanya memanfaatkan data dengan bahasa yang sama tetapi juga perlu berasal dari domain yang sama, yaitu domain kesehatan. Berdasarkan hasil eksperimen tersebut, data tidak berlabel yang berasal dari domain kesehatan yang sama perlu dieksploitasi lebih lanjut setidaknya dengan dua pendekatan. Pendekatan pertama adalah Continued Pre-Training terhadap pre-trained language model yang dilakukan agar model bisa lebih adaptif terhadap tugas spesifik yang diselesaikan, yaitu pengenalan entitas bernama pada dokumen Consumer Health berbahasa Indonesia. Pendekatan kedua adalah Self-Training yang memanfaatkan pseudo-label dari data tidak berlabel untuk memperbesar data yang digunakan untuk melatih model. Hasil eksperimen yang dilakukan menunjukkan bahwa kedua pendekatan Semisupervised Learning yang dilakukan baik Continued Pre-training dan Self-training mampu meningkatkan performa model. Peningkatan performa ini juga diuji menggunakan Almost Stochastic Order(ASO) dan dapat dinyatakan bahwa penggunaan dengan pendekatan Semi-supervised Learning yang dilakukan memiliki peningkatan yang signifikan. Dengan metode Continued Pre-training, semakin banyak data tidak berlabel yang digunakan untuk Task adaptation Pre-training semakin meningkatkan performa yang dimiliki model dan dalam penelitian ini terbukti bahwa dapat meningkatkan performa hingga 1.17 persen jika dibandingkan dengan pre-trained language model terbaik. Selain itu, pendekatan dengan Meta Self-Training tidak berhasil meningkatkan performa model, namun pendekatan Self-training secara umum berhasil mengungguli hingga 4.74 persen dari model Continued Pre-training dan 5.91 persen dari pre-trained language model. Kata kunci: Continued Pre-training, Task adaptation Pre-training, Semi-supervised Learning, Self-Training, Pengenalan Entitas Kesehatan, Data Tidak Berlabel.