Call Number | KA-1489 (Softcopi KA-1478) MAK KA-1130 |
Collection Type | Karya Akhir (KA) |
Title | Deteksi ujaran kebencian dan ujaran kasar terkait covid-19 berbahasa Indonesia di Twitter |
Author | Mohammad Rizky Adrian; |
Publisher | Jakarta : Program Studi Magister Teknologi Informasi Fasilkom UI, 2021 |
Subject | Social Media, Hate Speech |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
KA-1489 (Softcopi KA-1478) MAK KA-1130 | Ind | TERSEDIA |
Di masa pandemi COVID19, media sosial tidak terlepas dari konten yang meresahkan masyarakat seperti ujaran kebencian (hate speech) dan ujaran kasar (abusive language). Salah satu upaya untuk mengendalikan konten negatif media sosial salah satunya adalah dengan mengotomasi proses filter dari konten yang ada di media sosial. Dalam konteks COVID19, proses otomasi ini dapat dimanfaatkan oleh KOMINFO, virtual police, satuan tugas COVID19, ataupun para akademisi. Data dikumpulkan dari media sosial Twitter dalam rentang waktu bulan Mei sampai Juni 2021 menggunakan teknik scraping dari library snscrape. Selain membangun model klasifikasi sendiri dari dataset COVID19, penelitian memanfaatkan korpus dari penelitian terdahulu untuk mengetahui apakah pengetahuan dari penelitian terdahulu dapat digunakan pada domain COVID19. Dataset COVID19 dievaluasi menggunakan algoritma Support Vector Machine (SVM), Naïve Bayes, Random Forest Decision Tree (RFDT), Logistic Regression, dan ADABoost, dengan variasi penanganan data imbalance SMOTE dan undersampling. Unigram-bigram kata digunakan sebagai fitur yang diekstraksi dengan pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) dan Count Vectorizer. Selain itu digunakan pula tambahan fitur lexicon dan fitur orthogonal sebagai kombinasi pencarian model terbaik. Hasil anotasi menunjukkan perbandingan data imbalance sebesar 1:73 untuk ujaran kebencian dan 1:24 untuk ujaran kasar pada domain COVID19. Evaluasi dari hasil penelitian menunjukkan bahwa pemanfaatan model klasifikasi dari penelitian terdahulu (2019) dikombinasikan dengan dataset COVID19 memiliki nilai recall dan F1 klasifikasi ujaran kebencian (nilai recall 69.23%) dan ujaran kasar (nilai recall 71.3%) yang lebih baik. Algoritma pembangun model terbaik didominasi oleh algoritma SVM dan ADABoost. Adapun hasil dari penelitian ini perlu ditindaklanjuti agar dapat dirasakan manfaatnya secara langsung, misalnya dengan membungkus model klasifikasi terbaik dalam antar muka atau API (application programmable interface) yang dapat diakses secara luas.