Call Number | T-1300 (Softcopy T-1008) Source Code T-343 Mak T-99 |
Collection Type | Tesis |
Title | Penambahan data menggunakan penerjemahan dalam identifikasi ujaran kasar, ujaran kebencian, dan target ujaran kebencian pada tweet berbahasa indonesia |
Author | Sandy Kurniawan; |
Publisher | Depok: Fakultas Ilmu Komputer Universitas Indonsia, 2021 |
Subject | |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
T-1300 (Softcopy T-1008) Source Code T-343 Mak T-99 | TERSEDIA |
ABSTRAK Nama : Sandy Kurniawan Program Studi: Magister Ilmu Komputer Judul : Penambahan Data Menggunakan Penerjemahan dalam Identifikasi Ujaran Kasar, Ujaran Kebencian, dan Target Ujaran Kebencian pada Tweet Berbahasa Indonesia Pembimbing : Dr. Indra Budi, S.Kom., M.Kom. Pengguna media sosial di Indonesia semakin meningkat dari tahun ke tahun. Peningkatan jumlah pengguna media sosial juga meningkatkan penggunaan bahasa kasar pada media sosial dalam bentuk ujaran kasar dan ujaran kebencian. Penggunaan bahasa kasar dapat memicu konflik antar pengguna dalam media sosial. Oleh karena itu, identifikasi penggunaan bahasa kasar dalam media sosial perlu dilakukan. Penelitian ini difokuskan untuk mengidentifikasi ujaran kasar, ujaran kebencian, dan target ujaran kebencian pada Twitter. Data yang digunakan diperoleh dari penelitian-penelitian terdahulu terkait identifikasi ujaran kasar dan ujaran kebencian. Jumlah data sangat berpengaruh terhadap kinerja klasifikasi yang dihasilkan. Oleh karena itu, penambahan data dengan menggunakan penerjemahan digunakan dalam penelitian ini. Algoritma classical machine learning (SVM, Random Forest Decision Tree, dan Logistic Regression) dan deep learning (BiLSTM, CNN, dan LSTM) digunakan sebagai algoritma klasifikasi dengan fitur word n-gram dan word embedding. Hasil skenario pengujian tanpa menggunakan penambahan data memperoleh hasil F1-score sebesar 59.34% sedangkan skenario pengujian dengan penambahan data penerjemahan memperoleh F1-score sebesar 64.36%. Hasil ini menunjukkan bahwa penambahan data dengan penerjemahan data meningkatkan kinerja klasifikasi yang dilakukan sebesar 5.02%. Hasil penelitian ini diharapkan dapat dimanfaatkan sebagai masukan untuk Polri, Kemenkominfo, maupun Komnas HAM dalam pembuatan sistem identifikasi ujaran kasar, ujaran kebencian, dan target ujaran kebencian dalam platform media sosial.