Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1872 (Softcopy SK-1354)
Collection Type Skripsi
Title Perbandingan performa contextualized pre-trained language model berbasis bert dalam mengklasifikasikan konten pornografi pada twit berbahasa indonesia
Author Chrysant Celine Setyawan;
Publisher Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1872 (Softcopy SK-1354) TERSEDIA
Tidak ada review pada koleksi ini: 48847
ABSTRAK Nama : Chrysant Celine Setyawan Program Studi : Ilmu Komputer Judul : PerbandinganPerformaContextualizedPre-TrainedLanguage Model Berbasis BERT dalam Mengklasifikasikan Konten Pornografi pada Twit Berbahasa Indonesia Banyaknya peredaran konten porno di media sosial terbukti mendorong terjadinya kerusakan moral dan kriminalitas terkait kejahatan seksual. Sistem dan penelitian terkait identifikasi konten porno yang sudah ada sejauh ini belum efisien dalam hal pengurutan prioritas penanganan konten porno. Oleh karena itu, diperlukan adanya cara yang bisa mengidentifikasi konten porno berdasarkan jenisnya secara otomatis, tepat, dan efisien. Skripsi ini membangun model klasifikasi jenis konten porno secara multi kelas yang dilatih pada 8.174 data teks Twitter berbahasa Indonesia menggunakan contextualized pre-trainedlanguagemodelberbasisBERT,yangmerupakanstate-of-the-artpadabanyak penerapan pengolahan bahasa manusia (PBM). Penulis bereksperimen menggunakan lima contextualized pre-trained language model, yaitu indobenchmark/indobert-litebase-p1 (arsitekturnya ALBERT), indobenchmark/indobert-base-p2 (arsitekturnya BERT), indobenchmark/indobert-large-p2 (arsitekturnya BERT), indolem/indobert-baseuncased (arsitekturnya BERT), dan cahya/roberta-base-indonesian-522M (arsitekturnya RoBERTa). Untuk melihat berapa banyak jenis konten porno yang mampu diidentifikasi model dengan performa yang baik, penulis melakukan tiga task eksperimen. Task 1 menggunakan 9 label, task 2 menggunakan 4 label, dan task 3 menggunakan 2 label. Penentuan model terbaik pada skripsi ini didasarkan pada F1-score terhadap 2.044 data uji, waktu testing, total waktu training, dan ukuran model. Dengan mempertimbangkan metrikyangtelahdisebutkantersebutsecarakeseluruhan,hasileksperimenmenunjukkan bahwa model dengan performa terbaik dalam batasan penelitian ini diperoleh oleh indobenchmark/indobert-base-p2 untuk task 1, serta indobenchmark/indobert-lite-basep1 untuk task 2 dan task 3. Maksimal jenis konten porno yang bisa diidentifikasi model dengan F1-Score di atas 88,90% sebanyak 4 label, yaitu pada task 2 menggunakan indobenchmark/indobert-lite-base-p1 dan indobenchmark/indobert-large-p2. Katakunci: konten porno, penjaja seks, klasifiksi teks multi kelas, contextualized pre-trained language model berbasis bert, deep learning