Call Number | T-1346 (Softcopy T-1055), Source Code T-364, Mak T-146 |
Collection Type | Tesis |
Title | Strategi-strategi Fine-turning dan augmentasi data lintas bahasa untuk meningkatkan kinerja model BERT pada Tigas Machine Reading Comprehension dalam bahasa sumber daya rendah |
Author | Ryan Pramana; |
Publisher | Depok:Fasilkom UI,2022 |
Subject | |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
T-1346 (Softcopy T-1055), Source Code T-364, Mak T-146 | TERSEDIA |
ABSTRAK Nama : Ryan Pramana Program Studi : Ilmu Komputer Judul : Strategi-strategi Fine-tuning dan Augmentasi Data Lintas Bahasa untuk Meningkatkan Kinerja Model BERT pada Tu- gas Machine Reading Comprehension dalam Bahasa Sum- ber Daya Rendah Pembimbing : Adila Alfa Krisnadhi, S.Kom., M.Sc,Ph.D & Radityo Eko Prasojo, Ph.D Machine Reading Comprehension (MRC) merupakan salah satu task di bidang nat- ural language processing (NLP) dimana mesin memiliki tugas untuk membaca se- cara komprehensif dari sebuah bacaan (passage) yang diberikan agar dapat men- jawab pertanyaan terkait. Metode terkini untuk mengautomasi MRC menggunakan deep learning dengan memanfaatkan pretrained language models (PLMs) berbasis BERT. Dalam menangani kasus MRC sumber daya rendah, digunakan PLM multi- lingual seperti XLM-R. Namun PLM multilingual memiliki masalah untuk bahasa sumber daya rendah yaitu: bahasa sumber daya rendah yang tidak terepresentasi de- ngan baik, imperfect cross-lingual embeddings alignment dan instabilitas ketika di fine-tuning pada data berukuran kecil. Penelitian ini mengusulkan beberapa strategi fine-tuning dan metode pembentukan data augmentasi untuk meningkatkan kinerja MRC dibahasa sumber daya rendah. Strategi fine-tuning yang diusulkan adalah 2-step fine-tuning dan mixed fine-tuning. Untuk metode pembentukan data aug- mentasi yaitu dengan penggunaan data asli, pengaplikasian model machine transla- tion dan perturbasi code-switching. Hasil eksperimen menunjukkan, untuk dataset FacQA (Bahasa Indonesia) dan UIT-ViQuAD (Bahasa Vietnam) diperoleh strategi terbaik dengan kombinasi strategi penggunaan data asli dan metode 2-step fine- tuning dimana menghasilkan peningkatan kinerja sebesar 3.858%, 2.13% secara berurutan. Untuk dataset FQuAD (Bahasa Prancis), strategi terbaik diperoleh de- ngan kombinasi strategi pembentukan data perturbasi code-switching dan metode mixed fine-tuning dimana menghasilkan peningkatan kinerja sebesar 1.493%. Kata kunci: MRC, bahasa sumber daya rendah, fine-tuning, augmentasi data lintas bahasa, pre- trained language models, code-switching