ABSTRAK
ABSTRAK
Nama : Lihardo Faisal Simanjuntak
Program Studi : Ilmu Komputer
Judul : Identifikasi Bahasa Daerah pada Twit code-mixed Menggu-
nakan Machine Learning dan Pre-trained Language Models
Identifikasi bahasa adalah tugas menentukan bahasa teks atau ucapan yang diberikan.
Tugas identifikasi bahasa tertulis yang sudah dikerjakan dalam penelitian sebelumnya
belum mencakup bahasa-bahasa daerah di Indonesia karena resource untuk melakukan
tugas identifikasi bahasa untuk bahasa daerah di Indonesia masih sangat terbatas. Tujuan
penelitian ini adalah mengumpulkan data dari Twitter sebagai resource dengan menggu-
nakan leksikon bahasa daerah dari Wikipedia dan NusaX untuk digunakan membangun
model identifikasi bahasa.
Penelitian ini juga menguji beberapa machine learning models (naive Bayes, sup-
port vector machine, dan logistic regression), deep learning (LSTM), dan pretrained
language models (IndoBERT, IndoBERTweet, dan XLM-T) dalam tugas identifikasi Ba-
hasa. Karena data Twitter cenderung tertulis dalam bahasa tidak formal dan code-mixed,
penelitian ini juga ingin melihat bagaimana pengaruh data code-mixed terhadap performa
model yang dibangun. Eksperimen model identifikasi bahasa dilakukan dalam empat ske-
nario: 1) bahasa daerah saja; 2) daerah-indonesia; 3) daerah-inggris; 4) daerah-indonesia-
inggris. Hasil penelitian ini menunjukkan bahwa logistic regression berkinerja terbaik
pada skenario pertama dan ketiga, dengan akurasi masing-masing 92,99% dan 91,57%.
Dalam skenario kedua dan keempat, XLM-T mengungguli semua model lainnya, dengan
akurasi masing-masing 86,91% dan 88,10%.
Untuk melihat pengaruh data code-mixed terhadap performa model, peneliti menggu-
nakan tiga skenario pelatihan data pada data uji code-mixed: 1) data latih code-mixed 2)
data latih murni 3) data latih gabungan. Hasil percobaan yang dilakukan menunjukkan
bahwa pengujian dengan data latih code-mixed memiliki pengaruh yang signifikan ter-
hadap kinerja model.
|