ABSTRAK
Nama : Rafi Dwi Rizqullah
Program Studi : Ilmu Komputer
Judul : Normalisasi Kata pada Teks Twitter Berbahasa Campuran
Indonesia-Inggris menggunakan UFAL ByT5
Pembimbing : Dr. Indra Budi, S.Kom., M.Kom.
Media sosial telah berkembang pesat dalam masyarakat dunia. Tak terkecuali Twitter
yang mendapatkan peningkatan baik dalam jumlah pengguna maupun konten yang
dibuat. Namun, Twitter memiliki batasan karakter dalam satu tweet yang menyebabkan perubahan pada pola penulisan para penggunanya. Pengguna Twitter mulai memodifikasi penulisan dengan kata baku menjadi kata tidak baku, salah satunya dengan menggunakan bahasa campuran. Untuk keperluan analisis tweet, normalisasi teks diperlukan untuk mengubah kata tidak baku menjadi baku untuk memudahkan analisis. State-of-the-art pada normalisasi teks Twitter berbahasa campuran Indonesia dan Inggris saat ini adalah model statistical machine translation (SMT), namun model SMT masih memiliki kelemahan pada beberapa jenis perubahan kata. Penelitian ini berfokus pada normalisasi teks Twitter Indonesia berbahasa campuran Indonesia dan Inggris dengan menggunakan salah satu model transformer yaitu UFAL ByT5. Terdapat dua model UFAL ByT5 yang digunakan masing-masing untuk bahasa Indonesia serta bahasa Inggris. Hasil penelitian menunjukkan model UFAL ByT5 unggul dalam normalisasi teks dibandingkan model SMT, dengan selisih nilai BLEU 0,88 persen lebih besar.
|