ABSTRAK
ABSTRAK
Nama : Muhammad Okky Ibrohim
Program Studi : Magister Ilmu Komputer
Judul : Klasifikasi Multi Label untuk Identifikasi Ujaran Kebencian dan Ujaran Kasar pada Twitter Berbahasa Indonesia
Pembimbing : Dr. Indra Budi, S.Kom., M.Kom.
Penyebaran ujaran kebencian dan ujaran kasar di media sosial merupakan hal yang harus diidentifikasi secara otomatis untuk mencegah terjadinya konflik masyarakat. Selain itu, ujaran kebencian mempunyai target, golongan, dan tingkat tersendiri yang juga perlu diidentifikasi untuk membantu pihak berwenang dalam memprioritaskan kasus ujaran kebencian yang harus segera ditangani. Tesis ini membahas klasifikasi teks multi label untuk mengidentifikasi ujaran kasar dan ujaran kebencian disertai identifikasi target, golongan, dan tingkatan ujaran kebencian pada Twitter berbahasa Indonesia. Permasalahan ini diselesaikan menggunakan pendekatan machine learning menggunakan algoritma klasifikasi Support Vector Machine (SVM), Naïve Bayes (NB), dan Random Forest Decision Tree (RFDT) dengan metode transformasi data Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Jenis fitur yang digunakan antara lain fitur frekuensi term (word n-grams dan character n-grams), fitur ortografi (tanda seru, tanda tanya, huruf besar/kapital, dan huruf kecil), dan fitur leksikon (leksikon sentimen negatif, leksikon sentimen positif, dan leksikon kasar). Hasil eksperimen menunjukkan bahwa secara umum algoritma klasifikasi RFDT dengan metode transformasi LP memberikan akurasi yang terbaik dengan waktu komputasi yang cepat. Algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan fitur word unigram memberikan akurasi sebesar 66,16%. Jika hanya mengidentifikasi ujaran kasar dan ujaran kebencian (tanpa disertai identifikasi target, golongan, dan tingkatan ujaran kebencian), algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan gabungan fitur word unigram, character quadgrams, leksikon sentimen positif, dan leksikon kasar mampu memberikan akurasi sebesar 77,36%.
Kata kunci: ujaran kebencian, ujaran kasar, klasifikasi teks multi label, machine learning.
|