ABSTRAK

ABSTRAK Nama : Lihardo Faisal Simanjuntak Program Studi : Ilmu Komputer Judul : Identifikasi Bahasa Daerah pada Twit code-mixed Menggu- nakan Machine Learning dan Pre-trained Language Models Identifikasi bahasa adalah tugas menentukan bahasa teks atau ucapan yang diberikan. Tugas identifikasi bahasa tertulis yang sudah dikerjakan dalam penelitian sebelumnya belum mencakup bahasa-bahasa daerah di Indonesia karena resource untuk melakukan tugas identifikasi bahasa untuk bahasa daerah di Indonesia masih sangat terbatas. Tujuan penelitian ini adalah mengumpulkan data dari Twitter sebagai resource dengan menggu- nakan leksikon bahasa daerah dari Wikipedia dan NusaX untuk digunakan membangun model identifikasi bahasa. Penelitian ini juga menguji beberapa machine learning models (naive Bayes, sup- port vector machine, dan logistic regression), deep learning (LSTM), dan pretrained language models (IndoBERT, IndoBERTweet, dan XLM-T) dalam tugas identifikasi Ba- hasa. Karena data Twitter cenderung tertulis dalam bahasa tidak formal dan code-mixed, penelitian ini juga ingin melihat bagaimana pengaruh data code-mixed terhadap performa model yang dibangun. Eksperimen model identifikasi bahasa dilakukan dalam empat ske- nario: 1) bahasa daerah saja; 2) daerah-indonesia; 3) daerah-inggris; 4) daerah-indonesia- inggris. Hasil penelitian ini menunjukkan bahwa logistic regression berkinerja terbaik pada skenario pertama dan ketiga, dengan akurasi masing-masing 92,99% dan 91,57%. Dalam skenario kedua dan keempat, XLM-T mengungguli semua model lainnya, dengan akurasi masing-masing 86,91% dan 88,10%. Untuk melihat pengaruh data code-mixed terhadap performa model, peneliti menggu- nakan tiga skenario pelatihan data pada data uji code-mixed: 1) data latih code-mixed 2) data latih murni 3) data latih gabungan. Hasil percobaan yang dilakukan menunjukkan bahwa pengujian dengan data latih code-mixed memiliki pengaruh yang signifikan ter- hadap kinerja model.