ABSTRAK
Nama : Ajmal Kurnia
Program Studi : Magister Ilmu Komputer
Judul : Normalisasi Teks Code-Mixed Bahasa Indonesia-Inggris pada Data
Twitter dan Analisis Pengaruhnya untuk Klasifikasi Emosi
Pembimbing : Evi Yulianti, M.Kom., M.Comp, Ph.D.
Code-mixing adalah sebuah fenomena pengunaan dua atau lebih bahasa dalam suatu
percakapan. Fenomena ini semakin banyak digunakan oleh pengguna internet Indonesia
yang mencampur bahasa Indonesia-Inggris. Normalisasi teks code-mixed ke dalam satu
bahasa perlu dilakukan agar kata-kata yang ditulis dalam bahasa lain dalam teks tersebut
dapat diproses dengan efektif dan efisien. Penelitian ini melakukan normalisasi teks codemixed pada bahasa Indonesia-Inggris dengan menerjemahkan teks ke dalam bahasa
Indonesia. Penulis melakukan pengembangan pada pipeline normalisasi code-mixed dari
penelitian sebelumnya sebagai berikut: melakukan rekayasa fitur pada proses identifikasi
bahasa, menggunakan kombinasi ruleset dan penerjemahan mesin pada proses
normalisasi slang, dan menambahkan konteks pada proses Matrix Language Frame
(MLF) pada proses penerjemahan. Hasil eksperimen menunjukkan bahwa model
identifikasi bahasa yang dibuat dapat meningkatkan nilai F1-score 4,26%. Model
normalisasi slang yang dibuat meningkatkan nilai BLEU hingga 25,22% lebih tinggi dan
menunrunkan nilai WER 62,49%. Terakhir, proses penerjemahan yang dilakukan pada
penelitian ini berhasil memperoleh nilai BLEU 2,5% lebih tinggi dan metrik WER 8,84%
lebih rendah dibandingkan dengan baseline. Hasil ini sejalan dengan hasil eksperimen
keseluruhan pipeline. Berdasarkan hasil eksperimen keseluruhan pipeline yang dibuat
oleh penulis dapat meningkatkan secara signifikan performa BLEU hingga 32,11% dan
menurunkan nilai WER hingga 33,82% lebih rendah dibandingkan dengan metode
baseline. Selanjutnya, penelitian ini juga menganalisis pengaruh dari proses normalisasi
teks code-mixed untuk klasifikasi emosi. Proses normalisasi teks code-mixed terbukti
dapat meningkatkan performa sistem klasifikasi emosi hingga 12,45% untuk nilai F1-
score dibandingkan dengan hanya melakukan tokenisasi dan meningkatkan nilai F1-
score hingga 6,24% dibandingkan dengan metode preproses sederhana yang umum
digunakan. Hal ini menunjukkan bahwa normalisasi teks code-mixed memiliki pengaruh
positif terhadap efektifitas pemrosesan teks, sehingga normalisasi ini penting untuk
dilakukan pada task yang menggunakan data code-mixed.
Kata Kunci:
code-mixing, klasifikasi emosi, normalisasi, preproses teks
|
|