ABSTRAK
Nama : Gabriel Enrique
Program Studi : Ilmu Komputer
Judul : Cross-lingual Transfer Learning untuk Part-of-speech Tagging Bahasa Jawa
Pembimbing : Evi Yulianti M.Comp.Sc, M.Kom., Ph.D.
Dr. Ika Alfina, S.Kom., M.Kom.
Part-of-speech tagging, adalah task di bidang Natural Language Processing di mana
setiap kata di dalam suatu kalimat dikategorisasi ke dalam kategori parts-of-speech (kelas
kata) yang sesuai. Pengembangan model POS tagger menggunakan pendekatan machine
learning membutuhkan dataset dengan ukuran yang besar. Namun, dataset POS tagging
tidak selalu tersedia dalam jumlah banyak, seperti dataset POS tagging untuk bahasa
Jawa. Dengan jumlah data yang sedikit, model POS tagger yang dilatih kemungkinan
tidak akan memiliki performa yang optimal. Salah satu solusinya adalah dengan
menggunakan pendekatan cross-lingual transfer learning, di mana model dilatih menggunakan suatu source language pada suatu task agar dapat menyelesaikan task yang
sama pada suatu target language. Penelitian ini bertujuan untuk menguji performa
pre-trained language model (mBERT, XLM-RoBERTa, IndoBERT) dan melihat pengaruh cross-lingual transfer learning terhadap performa pre-trained language model
untuk POS tagging bahasa Jawa. Percobaan yang dilakukan menggunakan lima source
language, yaitu bahasa Indonesia, bahasa Inggris, bahasa Uighur, bahasa Latin, dan
bahasa Hungaria, serta lima jenis model, yaitu fastText + LSTM, fastText + BiLSTM,
mBERT, XLM-RoBERTa, dan IndoBERT; sehingga secara keseluruhan ada total 35
jenis model POS tagger. Model terbaik yang dilatih tanpa pendekatan cross-lingual
transfer learning dibangun menggunakan IndoBERT, dengan akurasi sebesar 86.22%.
Sedangkan, model terbaik yang dilatih menggunakan pendekatan cross-lingual transfer
learning dalam bentuk dua kali fine-tuning, pertama menggunakan source language dan
kedua menggunakan bahasa Jawa, sekaligus model terbaik secara keseluruhan dibangun
menggunakan XLM-RoBERTa dan bahasa Indonesia sebagai source language, dengan
akurasi sebesar 87.65%. Penelitian ini menunjukkan bahwa pendektan cross-lingual
transfer learning dalam bentuk dua kali fine-tuning dapat meningkatkan performa model
POS tagger bahasa Jawa, dengan peningkatan akurasi sebesar 0.21%–3.95%.
Kata kunci:
part-of-speech tagging, cross-lingual transfer learning
|
|