ABSTRAK
Nama Penulis 1 / Program Studi : Alya Azhar Agharid / Ilmu Komputer
Nama Penulis 2 / Program Studi : Frigas Hanifyan Zalwi / Ilmu Komputer
Judul
: Model Validasi Konten Berita Generatif untuk
Automatic Indonesian News Generation System
Pembimbing 1
: Adila Alfa Krisnadhi, Ph.D.
Pembimbing 2
: Jessica Naraiswari Arwidarasti, S.Kom., M.Kom.
Penelitian ini bertujuan untuk melakukan pengembangan model untuk validasi berita
berbahasa Indonesia yang dihasilkan oleh komponen generator berita pada proyek Automatic
Indonesian News Generation System (AINGS). Terdapat dua pendekatan dalam
penelitian ini, yakni pendekatan Large Language Model (LLM) generatif dan pendekatan
model tugas Natural Language Inference (NLI). Dataset pada penelitian ini berasal dari
berita pada media digital Indonesia dengan kategori berita olahraga dan fenomena alam.
Model LLM generatif yang digunakan adalah BLOOM dan XGLM. Sementara itu model
yang digunakan dalam tugas NLI adalah LLM contextualized pre-trained IndoBERT,
mBERT, XLM-RoBERTa, dan mDeBERTa-V3. Aturan klasifikasi tambahan diperlukan
sebagai tahapan post-processing dari pendekatan NLI untuk klasifikasi tingkat berita. Kedua
hasil evaluasi pendekatan akan dibandingkan dengan hasil evaluasi pengujian validasi
oleh manusia. Penelitian ini menunjukkan bahwa performa dari pendekatan basis tugas
NLI lebih baik dibandingkan dengan pendekatan LLM generatif. Performa model terbaik
pendekatan NLI yaitu IndoBERTLARGE−P1 mencapai performa akurasi 94,70%, sedangkan
model terbaik pendekatan LLM generatif yakni BLOOM − 3B mencapai akurasi
tertinggi pada 84,11%. Meskipun demikian, penelitian ini menunjukkan bahwa kedua
pendekatan di atas belum dapat melampaui performa validasi oleh manusia. Performa
pendekatan terbaik penelitian ini yakni model berbasis NLI memiliki performa akurasi
94,70% yang memiliki selisih 3% dari akurasi pengujian manusia dengan akurasi 97,36%.
Dengan selisih nilai akurasi yang kecil di atas, penelitian ini menunjukkan bahwa pendekatan
penggunaan LLM dengan basis tugas NLI dapat menjadi solusi yang baik dalam
tugas validasi berita generatif berbahasa Indonesia.
Kata kunci:
Validasi Berita Generatif, Large Language Model (LLM), Natural Language Inference
(NLI), Text Classification, BLOOM, XGLM, IndoBERT, mBERT, XLM-RoBERTa,
mDeBERTa-V3
|