Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-2703 (softcopy SK-2184)
Collection Type Skripsi
Title Kurasi Dataset SIBI dari Siaran Berita TVRI untuk Model Translasi Kalimat Bahasa Indonesia Menjadi Kalimat SIBI
Author Muhammad Nafriel Ramadhan;
Publisher Depok: Fasilkom UI, 2026
Subject Machine Translation
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-2703 (softcopy SK-2184) TERSEDIA
Tidak ada review pada koleksi ini: 56588
ABSTRAK

Nama : Muhammad Nafriel Ramadhan Program Studi : Sistem Informasi Judul : Kurasi Dataset SIBI dari Siaran Berita TVRI untuk Model Translasi Kalimat Bahasa Indonesia menjadi Kalimat SIBI Pembimbing : Dr. Ir. Erdefi Rakun, M.Sc., Dr.Kurniawati Azizah, S.T., M.Phil. Orang tunarungu memiliki keterbatasan dalam membaca teks subtitle yang cepat pada video karena kemampuan berbahasa mereka yang rendah. Permadi menghasilkan sistem pembangkit subtitle bahasa isyarat Sistem Isyarat Bahasa Indonesia (SIBI). Namun, subtitle animasi yang dihasilkan terlalu cepat karena dibuat kata demi kata dari teks subtitle video sehingga menghambat pemahaman isi video. Guru Sekolah Luar Biasa mengatakan bahwa peraga SIBI hanya meragakan inti sari dari pesan yang hendak disampaikan. Penelitian selanjutnya membuat sistem translasi kalimat Bahasa Indonesia ke kalimat SIBI menggunakan model mBART50 FT+CL dan NLLB200 FT+CL yang telah di-fine-tune dan dioptimasi dengan custom loss supaya memaksa model mengambil kata yang ada di kamus SIBI. Dataset yang dipakai adalah SIBIVID-MP12 yang terdiri dari 12 video mata pelajaran kelas 10-12 SLB Santi Rama. Untuk meningkatkan performa model, diperlukan dataset yang lebih luas, tetapi Indonesia belum memiliki dataset tersebut. Naufal et al. membangun dataset otomatis BISINDO dan SIBI Bernama TVRI SIBI dari siaran berita Indonesia Hari Ini TVRI. Ketika model mBART50 FT+CL dan NLLB200 FT+CL diuji dengan dataset TVRI SIBI, performanya menurun secara signifikan. Antara lain, pada model NLLB200 FT+CL sacreBLEU menurun sekitar 26,98% dan skor METEOR menurun 45,76%. Penelitian ini bertujuan untuk menganalisa penyebab penurunan performa tersebut serta melakukan kurasi dataset TVRI SIBI dengan model yang sama. Tahapan kurasi dataset terdiri dari pembagian data dengan dua skema, yaitu random split dan best split (closed vocabulary), melakukan normalisasi teks pada tahap pelatihan dan tahap evaluasi, serta memperbaiki dataset sehingga menghasilkan dataset bernama SIBI-TVRI-CSUI-12-25. Selain itu, penelitian ini juga menguji kemampuan model large language model (LLM) open-source, yaitu Gemma 2 9B, LLaMA 3.1 8B, dan Qwen 2.5 7B, dengan in-context learning tanpa fine-tuning model dengan dataset SIBIVID-MP12 dan SIBI-TVRI-CSUI-12-25. Hasil evaluasi menunjukkan kurasi dataset meningkatkan performa model secara signifikan. Ketika model NLLB200 FT+CL dilatih menggunakan dataset SIBI-TVRI-CSUI-12-25, skor sacreBLEU meningkat 89,8% dari 19,97 menjadi 37,92, chrF++ meningkat 45,2% dari 41,06 menjadi 59,6, METEOR meningkat 35,7% dari 0,32 menjadi 0,50, dan ROUGE-L meningkat 35,7% dari 0,42 menjadi 0,57. Dari ketiga model LLM open-source, pada dataset SIBIVID-MP12, model Gemma2 9b menghasilkan performa terbaik dengan skor sacreBLEU 19,45. Pada dataset SIBI-TVRI-CSUI-12-25, model Llama 3.1 8b menghasilkan performa terbaik dengan skor sacreBLEU 12,90. Secara keseluruhan, hasil evaluasi LLM open-source menunjukkan performa yang masih berada di bawah model NLLB200 FT+CL & mBART50 FT+CL yang dilatih baik dengan dataset SIBIVID-MP12 maupun SIBI-TVRI-CSUI-12-25.