ABSTRAK
ABSTRAK
Nama : Ryan Pramana
Program Studi : Ilmu Komputer
Judul : Strategi-strategi Fine-tuning dan Augmentasi Data Lintas
Bahasa untuk Meningkatkan Kinerja Model BERT pada Tu-
gas Machine Reading Comprehension dalam Bahasa Sum-
ber Daya Rendah
Pembimbing : Adila Alfa Krisnadhi, S.Kom., M.Sc,Ph.D & Radityo Eko
Prasojo, Ph.D
Machine Reading Comprehension (MRC) merupakan salah satu task di bidang nat-
ural language processing (NLP) dimana mesin memiliki tugas untuk membaca se-
cara komprehensif dari sebuah bacaan (passage) yang diberikan agar dapat men-
jawab pertanyaan terkait. Metode terkini untuk mengautomasi MRC menggunakan
deep learning dengan memanfaatkan pretrained language models (PLMs) berbasis
BERT. Dalam menangani kasus MRC sumber daya rendah, digunakan PLM multi-
lingual seperti XLM-R. Namun PLM multilingual memiliki masalah untuk bahasa
sumber daya rendah yaitu: bahasa sumber daya rendah yang tidak terepresentasi de-
ngan baik, imperfect cross-lingual embeddings alignment dan instabilitas ketika di
fine-tuning pada data berukuran kecil. Penelitian ini mengusulkan beberapa strategi
fine-tuning dan metode pembentukan data augmentasi untuk meningkatkan kinerja
MRC dibahasa sumber daya rendah. Strategi fine-tuning yang diusulkan adalah
2-step fine-tuning dan mixed fine-tuning. Untuk metode pembentukan data aug-
mentasi yaitu dengan penggunaan data asli, pengaplikasian model machine transla-
tion dan perturbasi code-switching. Hasil eksperimen menunjukkan, untuk dataset
FacQA (Bahasa Indonesia) dan UIT-ViQuAD (Bahasa Vietnam) diperoleh strategi
terbaik dengan kombinasi strategi penggunaan data asli dan metode 2-step fine-
tuning dimana menghasilkan peningkatan kinerja sebesar 3.858%, 2.13% secara
berurutan. Untuk dataset FQuAD (Bahasa Prancis), strategi terbaik diperoleh de-
ngan kombinasi strategi pembentukan data perturbasi code-switching dan metode
mixed fine-tuning dimana menghasilkan peningkatan kinerja sebesar 1.493%.
Kata kunci:
MRC, bahasa sumber daya rendah, fine-tuning, augmentasi data lintas bahasa, pre-
trained language models, code-switching
|