Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number KA-1489 (Softcopi KA-1478) MAK KA-1130
Collection Type Karya Akhir (KA)
Title Deteksi ujaran kebencian dan ujaran kasar terkait covid-19 berbahasa Indonesia di Twitter
Author Mohammad Rizky Adrian;
Publisher Jakarta : Program Studi Magister Teknologi Informasi Fasilkom UI, 2021
Subject Social Media, Hate Speech
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
KA-1489 (Softcopi KA-1478) MAK KA-1130 Ind TERSEDIA
Tidak ada review pada koleksi ini: 48677
ABSTRAK

Di masa pandemi COVID19, media sosial tidak terlepas dari konten yang meresahkan masyarakat seperti ujaran kebencian (hate speech) dan ujaran kasar (abusive language). Salah satu upaya untuk mengendalikan konten negatif media sosial salah satunya adalah dengan mengotomasi proses filter dari konten yang ada di media sosial. Dalam konteks COVID19, proses otomasi ini dapat dimanfaatkan oleh KOMINFO, virtual police, satuan tugas COVID19, ataupun para akademisi. Data dikumpulkan dari media sosial Twitter dalam rentang waktu bulan Mei sampai Juni 2021 menggunakan teknik scraping dari library snscrape. Selain membangun model klasifikasi sendiri dari dataset COVID19, penelitian memanfaatkan korpus dari penelitian terdahulu untuk mengetahui apakah pengetahuan dari penelitian terdahulu dapat digunakan pada domain COVID19. Dataset COVID19 dievaluasi menggunakan algoritma Support Vector Machine (SVM), Naïve Bayes, Random Forest Decision Tree (RFDT), Logistic Regression, dan ADABoost, dengan variasi penanganan data imbalance SMOTE dan undersampling. Unigram-bigram kata digunakan sebagai fitur yang diekstraksi dengan pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) dan Count Vectorizer. Selain itu digunakan pula tambahan fitur lexicon dan fitur orthogonal sebagai kombinasi pencarian model terbaik. Hasil anotasi menunjukkan perbandingan data imbalance sebesar 1:73 untuk ujaran kebencian dan 1:24 untuk ujaran kasar pada domain COVID19. Evaluasi dari hasil penelitian menunjukkan bahwa pemanfaatan model klasifikasi dari penelitian terdahulu (2019) dikombinasikan dengan dataset COVID19 memiliki nilai recall dan F1 klasifikasi ujaran kebencian (nilai recall 69.23%) dan ujaran kasar (nilai recall 71.3%) yang lebih baik. Algoritma pembangun model terbaik didominasi oleh algoritma SVM dan ADABoost. Adapun hasil dari penelitian ini perlu ditindaklanjuti agar dapat dirasakan manfaatnya secara langsung, misalnya dengan membungkus model klasifikasi terbaik dalam antar muka atau API (application programmable interface) yang dapat diakses secara luas.