ABSTRAK

ABSTRAK Nama : Ryan Pramana Program Studi : Ilmu Komputer Judul : Strategi-strategi Fine-tuning dan Augmentasi Data Lintas Bahasa untuk Meningkatkan Kinerja Model BERT pada Tu- gas Machine Reading Comprehension dalam Bahasa Sum- ber Daya Rendah Pembimbing : Adila Alfa Krisnadhi, S.Kom., M.Sc,Ph.D & Radityo Eko Prasojo, Ph.D Machine Reading Comprehension (MRC) merupakan salah satu task di bidang nat- ural language processing (NLP) dimana mesin memiliki tugas untuk membaca se- cara komprehensif dari sebuah bacaan (passage) yang diberikan agar dapat men- jawab pertanyaan terkait. Metode terkini untuk mengautomasi MRC menggunakan deep learning dengan memanfaatkan pretrained language models (PLMs) berbasis BERT. Dalam menangani kasus MRC sumber daya rendah, digunakan PLM multi- lingual seperti XLM-R. Namun PLM multilingual memiliki masalah untuk bahasa sumber daya rendah yaitu: bahasa sumber daya rendah yang tidak terepresentasi de- ngan baik, imperfect cross-lingual embeddings alignment dan instabilitas ketika di fine-tuning pada data berukuran kecil. Penelitian ini mengusulkan beberapa strategi fine-tuning dan metode pembentukan data augmentasi untuk meningkatkan kinerja MRC dibahasa sumber daya rendah. Strategi fine-tuning yang diusulkan adalah 2-step fine-tuning dan mixed fine-tuning. Untuk metode pembentukan data aug- mentasi yaitu dengan penggunaan data asli, pengaplikasian model machine transla- tion dan perturbasi code-switching. Hasil eksperimen menunjukkan, untuk dataset FacQA (Bahasa Indonesia) dan UIT-ViQuAD (Bahasa Vietnam) diperoleh strategi terbaik dengan kombinasi strategi penggunaan data asli dan metode 2-step fine- tuning dimana menghasilkan peningkatan kinerja sebesar 3.858%, 2.13% secara berurutan. Untuk dataset FQuAD (Bahasa Prancis), strategi terbaik diperoleh de- ngan kombinasi strategi pembentukan data perturbasi code-switching dan metode mixed fine-tuning dimana menghasilkan peningkatan kinerja sebesar 1.493%. Kata kunci: MRC, bahasa sumber daya rendah, fine-tuning, augmentasi data lintas bahasa, pre- trained language models, code-switching