ABSTRAK
Nama
: Alif Mahardhika
Program Studi : Sistem Informasi
Judul
: Identifikasi Ujaran Kebencian dan Ujaran Kasar pada Twit
Berbahasa Campuran Indonesia-Jawa dengan Pre-Trained
Language Model Berbasis BERT
Pembimbing : Dr. Indra Budi, S.Kom., M.Kom.
Muhammad Okky Ibrohim, S.Mat., M.Kom
Ujaran kasar dan ujaran kebencian telah menjadi fenomena yang banyak ditemukan di
media sosial. Penyalahgunaan kebebasan berpendapat ini berpotensi memicu terjadinya
konflik dan ketidakstabilan sosial dikalangan masyarakat, baik dalam interaksi sosial
secara digital maupun secara fisik. Diperlukan upaya identifikasi ujaran kasar dan
ujaran kebencian secara otomatis, akurat, dan efisien untuk mempermudah penegakkan
hukum oleh pihak berwenang. Penelitian pada skripsi ini melakukan perbandingan
performa klasifikasi ujaran kasar dan ujaran kebencian pada data teks mixed-coded
berbahasa Indonesia-Jawa, menggunakan model klasifikasi berbasis BERT. Eksperimen
perbandingan dilakukan dengan membandingkan pre-trained model berbasis BERT
dengan berbagai arsitektur dan jenis berbeda, yaitu BERT (dengan arsitektur base dan
large), RoBERTa (arsitektur base), dan DistilBERT (arsitektur base). Untuk mengatasi
keterbatasan mesin dalam memahami teks mixed-coded, penelitian ini dirancang dalam
dua skenario yang membandingkan performa klasifikasi pada teks mixed-coded
Indonesia-Jawa dan teks mixed coded yang diterjemahkan ke Bahasa Indonesia. Hasil
terbaik berdasarkan F1-Score didapatkan pada klasifikasi menggunakan model berbasis
BERT dengan nama IndoBERT-large-p2 pada kedua skenario, dengan F1-Score 78,86%
pada skenario tanpa proses translasi, dan F1-Score 77,22% pada skenario dengan proses
translasi ke Bahasa Indonesia.
Kata kunci:
ujaran kebencian, ujaran kasar, klasifikasi teks mixed-coded, model transformer.
|