ABSTRAK
Nama : Chrysant Celine Setyawan Program Studi : Ilmu Komputer Judul : PerbandinganPerformaContextualizedPre-TrainedLanguage Model Berbasis BERT dalam Mengklasifikasikan Konten Pornografi pada Twit Berbahasa Indonesia
Banyaknya peredaran konten porno di media sosial terbukti mendorong terjadinya kerusakan moral dan kriminalitas terkait kejahatan seksual. Sistem dan penelitian terkait identifikasi konten porno yang sudah ada sejauh ini belum efisien dalam hal pengurutan prioritas penanganan konten porno. Oleh karena itu, diperlukan adanya cara yang bisa mengidentifikasi konten porno berdasarkan jenisnya secara otomatis, tepat, dan efisien. Skripsi ini membangun model klasifikasi jenis konten porno secara multi kelas yang dilatih pada 8.174 data teks Twitter berbahasa Indonesia menggunakan contextualized pre-trainedlanguagemodelberbasisBERT,yangmerupakanstate-of-the-artpadabanyak penerapan pengolahan bahasa manusia (PBM). Penulis bereksperimen menggunakan lima contextualized pre-trained language model, yaitu indobenchmark/indobert-litebase-p1 (arsitekturnya ALBERT), indobenchmark/indobert-base-p2 (arsitekturnya BERT), indobenchmark/indobert-large-p2 (arsitekturnya BERT), indolem/indobert-baseuncased (arsitekturnya BERT), dan cahya/roberta-base-indonesian-522M (arsitekturnya RoBERTa). Untuk melihat berapa banyak jenis konten porno yang mampu diidentifikasi model dengan performa yang baik, penulis melakukan tiga task eksperimen. Task 1 menggunakan 9 label, task 2 menggunakan 4 label, dan task 3 menggunakan 2 label. Penentuan model terbaik pada skripsi ini didasarkan pada F1-score terhadap 2.044 data uji, waktu testing, total waktu training, dan ukuran model. Dengan mempertimbangkan metrikyangtelahdisebutkantersebutsecarakeseluruhan,hasileksperimenmenunjukkan bahwa model dengan performa terbaik dalam batasan penelitian ini diperoleh oleh indobenchmark/indobert-base-p2 untuk task 1, serta indobenchmark/indobert-lite-basep1 untuk task 2 dan task 3. Maksimal jenis konten porno yang bisa diidentifikasi model dengan F1-Score di atas 88,90% sebanyak 4 label, yaitu pada task 2 menggunakan indobenchmark/indobert-lite-base-p1 dan indobenchmark/indobert-large-p2.
Katakunci: konten porno, penjaja seks, klasifiksi teks multi kelas, contextualized pre-trained language model berbasis bert, deep learning
|
|