ABSTRAK
ABSTRAK
Nama : Jessica Naraiswari Arwidarasti
Program Studi : Magister Ilmu Komputer
Judul : Pemodelan Topik Kontekstual N-Gram Lintas Bahasa untuk
Bahasa Indonesia dengan Zero Shot Learning Menggunakan Knowledge Graph
Seringkali kita mengelompokkan dokumen berdasarkan hasil identifikasi topik. Identifikasi topik terhadap sejumlah dokumen tidak terstruktur, contohnya abstrak, dapat dibantu dengan algoritma pemodelan topik. Namun, pelatihan model topik membutuhkan
dokumen dengan jumlah yang memadai. Dengan pembelajaran zero shot, kita dapat melakukan prediksi topik terhadap dokumen dengan jumlah yang kurang memadai dengan
mentransfer hasil pembelajaran dari dokumen dalam bahasa lain, contohnya Bahasa Inggris, walaupun tidak ada contoh dari bahasa yang diuji (Bahasa Indonesia). Pemanfaatan
zero-shot learning sudah dilakukan oleh Bianchi et al. (2021) dengan Contextual Topic
Model (CTM). Koherensi topik yang diprediksi CTM dapat ditingkatkan contohnya jika
dokumen terkait dengan knowledge graph (KG). Dengan penambahan informasi dari KG,
frekuensi kemunculan kata penting menjadi lebih tinggi. Adapun kualitas topik juga dapat ditingkatkan dengan memodifikasi bag-of-word (BoW) kata tunggal menjadi n-gram.
Namun, CTM terbatas pada 1-gram. Penelitian ini bertujuan untuk memperkaya topik
serta meningkatkan koherensi prediksi topik untuk dokumen unseen dengan memanfaatkan KG dan kualitas topik dengan memodifikasi BoW pada CTM menjadi n-gram. Hasil
eksperimen menunjukkan koherensi topik (dalam ukuran NPMI) tertinggi terhadap dokumen Bahasa Inggris yaitu dengan abstrak singkat dan BoW n-gram sebesar 0,24 dengan
margin 0.1019 terhadap Bianchi et al.. Namun, prediksi topik terhadap dokumen Bahasa Indonesia memiliki tingkat similaritas yang lebih baik dengan penambahan KG dilihat
dari peningkatan nilai Match sebesar 6% untuk 1-gram dan 4.34% untuk n-gram, centroid
similarity sebesar 0.02 untuk 1-gram, dan Kullback-Leibler Divergence 0.1 untuk 1-gram
dan 0.04 untuk n-gram. Peningkatan kualitas topik juga terjadi dengan modifikasi BoW
menjadi n-gram yang ditunjukkan oleh kemunculan topik yang tidak didapatkan sebelum modifikasi BoW. Adapun, model juga dapat memprediksi dokumen dari sumber lain,
contohnya berita. Namun, jika topik dokumen tidak tampak pada pelatihan, topik yang
diprediksi kurang koheren terhadap dokumen.
Kata kunci:
kontekstual, lintas bahasa, model topik, n-gram, pemelajaran zero-shot
|