ABSTRAK
Nama : Nabila Khansa
Program Studi : Ilmu Komputer
Judul : Deteksi Ujaran Kebencian dan Bahasa Kasar pada Blog
Mikro Berbahasa Indonesia
Pembimbing : Alfan Farizki Wicaksono, Ph.D.
Ujaran kebencian dan bahasa kasar mempermudah penyebarah kekerasan di kehidupan
nyata, sehingga muncul urgensi adanya pendeteksian secara otomatis. Untuk melanjutkan
pekerjaan yang sudah dilakukan oleh Ibrohim dan Budi (2019), penelitian ini membahas
dua isu terkait deteksi ujaran kebencian dan bahasa kasar pada mikroblog berbahasa
Indonesia. Isu pertama adalah kajian terkait effect size fitur dan pengembangan model
menggunakan fitur-fitur tersebut. Metode Analysis of Variance f-test, Logistic Regression
Analysis, dan nilai Shapley digunakan untuk melakukan kajian effect size pada fitur-fitur
yang dirancang secara manual. Kemudian, digunakan beberapa algoritma pemelajaran
mesin untuk mengembangkan model prediksi berbasis fitur-fitur tersebut. Isu kedua
adalah kajian bias dalam pengembangan model terkait keberadaan kata-kata bersifat
netral pada data yang merupakan ujaran kebencian atau bahasa kasar. Kajian terkait
bias dilakukan dengan menggunakan dataset uji bias. Dataset ini dikembangkan dengan
menggantikan kata-kata yang dideteksi memiliki potensi adanya bias pada model yang
dilatih menggunakan dataset hasil pekerjaan Ibrohim dan Budi (2019). Penelitian ini
menunjukkan bahwa keberadaan kata-kata tertentu berpengaruh terhadap hasil deteksi
ujaran kebencian dan bahasa kasar. Di antara kata-kata tersebut, terdeteksi beberapa
kata-kata yang berpotensi bias, karena memiliki pengaruh terhadap pendeteksian
padahal secara sendiri kata-kata yang dideteksi sebagai potensi bias tidak memiliki
unsur kebencian atau bersifat kasar. Hasil evaluasi pengambilan sampel bootstrap
menunjukkan Logistic Regression dan XGBoost sebagai model dengan akurasi terbaik
dalam pendeteksian ujaran kebencian dan bahasa kasar. Namun, ketika model yang sudah
dikembangkan digunakan untuk memprediksi dataset sintetis, didapatkan penurunan
akurasi dalam pendeteksian ujaran kebencian. Hasil ini menandakan adanya bias pada
model yang dikembangkan. Hasil tersebut didukung juga oleh hasil prediksi dengan
akurasi rendah ketika model digunakan untuk melakukan pendeteksian ujaran kebencian
pada dataset yang dikembangkan secara manual, tetapi ketika kata-kata bias digantikan
dari data, akurasi model meningkat. Kontribusi yang diberikan oleh penelitian ini
adalah pengembangan dataset uji bias secara otomatis dari dataset yang dikembangkan
oleh Ibrohim dan Budi (2019) dan juga dataset uji bias yang dikembangkan secara
manual.
Kata kunci:
klasifikasi, effect size, pemodelan, bias stereotipe, dataset sintetis
|
|