Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number T-1362 (Softcopy T-1071) Mak T-162
Collection Type Tesis
Title Analisis dan mitigasi religion bias pada dataset dan embedding NLP berbahasa indonesia
Author Muhammad Arief Fauzan;
Publisher Depok: Fakultas Ilmu Komputer UI, 2023
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
T-1362 (Softcopy T-1071) Mak T-162 TERSEDIA
Tidak ada review pada koleksi ini: 51379
ABSTRAK

ABSTRAK Nama : Muhammad Arief Fauzan Program Studi : Ilmu Komputer Judul : Analisis dan Mitigasi Religion Bias pada Dataset dan Embedding NLP berbahasa Indonesia Pembimbing : Ari Saptawijaya, S.Kom., M.Sc., Ph.D : Dr. Indra Budi, S.Kom., M.Kom Riset terdahulu menunjukkan adanya misrepresentasi identitas agama pada media Indonesia. Menurut studi sebelumnya, misrepresentasi identitas marjinal pada dataset dan word embedding untuk natural language processing dapat merugikan identitas marjinal tersebut, dan karenanya harus dimitigasi. Tesis ini menganalisis keberadaan bias agama pada beberapa dataset dan word embedding NLP berbahasa Indonesia, dampak bias yang ditemukan pada downstream performance, serta proses dan dampaj debiasing untuk dataset dan word embedding. Dengan menggunakan metode uji PMI untuk deteksi bias pada dataset dan word similarity untuk deteksi bias pada word embedding, ditemukan bahwa dua dari tiga dataset, serta satu dari empat word embedding yang digunakan pada studi ini mengandung bias agama. Model machine learning yang dibentuk dari dataset dan word embedding yang mengandung bias agama memiliki dampak negatif untuk downstream performance model tersebut, yang direpresentasikan dengan allocation harm dan representation harm. Allocation harm direpresentasikan oleh performa false negative rate (FNR) dan true positive rate (TPR) model machine learning yang lebih buruk untuk identitas agama tertentu, sedangkan representation harm direpresentasi oleh kesalahan model dalam mengasosiasikan kalimat non-negatif yang mengandung identitas agama sebagai kalimat negatif. Metode debiasing pada dataset dan word embedding mampu memitigasi bias agama yang muncul pada dataset dan word embedding, tetapi memiliki performa yang beragam dalam mitigasi allocation dan representation harm. Dalam tesis ini, akan digunakan 5 metode debiasing: dataset debiasing dengan menggunakan sentence templates, dataset debiasing dengan menggunakan kalimat dari Wikipedia, word embedding debiasing, joint debiasing dengan sentence templates, serta joint debiasing menggunakan kalimat dari Wikipedia. Dari 5 metode debiasing, joint debiasing dengan sentence templates memiliki performa yang paling baik dalam mitigasi allocation harm dan representation harm, sehingga menjadi metode debiasing yang terbaik. Kata kunci: Natural language processing, bias sosial, debiasing