Call Number | T-1289 (Softcopy T-997) Mak T-88 |
Collection Type | Tesis |
Title | Pemodelan Topik Kontekstual N-Gram Lintas Bahasa untuk Bahasa Indonesia dengan Zero Shot Learning Menggunakan Knowledge Grap |
Author | Jessica Naraiswari Arwidarasti; |
Publisher | Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021 |
Subject | |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
T-1289 (Softcopy T-997) Mak T-88 | TERSEDIA |
ABSTRAK Nama : Jessica Naraiswari Arwidarasti Program Studi : Magister Ilmu Komputer Judul : Pemodelan Topik Kontekstual N-Gram Lintas Bahasa untuk Bahasa Indonesia dengan Zero Shot Learning Menggunakan Knowledge Graph Seringkali kita mengelompokkan dokumen berdasarkan hasil identifikasi topik. Identifikasi topik terhadap sejumlah dokumen tidak terstruktur, contohnya abstrak, dapat dibantu dengan algoritma pemodelan topik. Namun, pelatihan model topik membutuhkan dokumen dengan jumlah yang memadai. Dengan pembelajaran zero shot, kita dapat melakukan prediksi topik terhadap dokumen dengan jumlah yang kurang memadai dengan mentransfer hasil pembelajaran dari dokumen dalam bahasa lain, contohnya Bahasa Inggris, walaupun tidak ada contoh dari bahasa yang diuji (Bahasa Indonesia). Pemanfaatan zero-shot learning sudah dilakukan oleh Bianchi et al. (2021) dengan Contextual Topic Model (CTM). Koherensi topik yang diprediksi CTM dapat ditingkatkan contohnya jika dokumen terkait dengan knowledge graph (KG). Dengan penambahan informasi dari KG, frekuensi kemunculan kata penting menjadi lebih tinggi. Adapun kualitas topik juga dapat ditingkatkan dengan memodifikasi bag-of-word (BoW) kata tunggal menjadi n-gram. Namun, CTM terbatas pada 1-gram. Penelitian ini bertujuan untuk memperkaya topik serta meningkatkan koherensi prediksi topik untuk dokumen unseen dengan memanfaatkan KG dan kualitas topik dengan memodifikasi BoW pada CTM menjadi n-gram. Hasil eksperimen menunjukkan koherensi topik (dalam ukuran NPMI) tertinggi terhadap dokumen Bahasa Inggris yaitu dengan abstrak singkat dan BoW n-gram sebesar 0,24 dengan margin 0.1019 terhadap Bianchi et al.. Namun, prediksi topik terhadap dokumen Bahasa Indonesia memiliki tingkat similaritas yang lebih baik dengan penambahan KG dilihat dari peningkatan nilai Match sebesar 6% untuk 1-gram dan 4.34% untuk n-gram, centroid similarity sebesar 0.02 untuk 1-gram, dan Kullback-Leibler Divergence 0.1 untuk 1-gram dan 0.04 untuk n-gram. Peningkatan kualitas topik juga terjadi dengan modifikasi BoW menjadi n-gram yang ditunjukkan oleh kemunculan topik yang tidak didapatkan sebelum modifikasi BoW. Adapun, model juga dapat memprediksi dokumen dari sumber lain, contohnya berita. Namun, jika topik dokumen tidak tampak pada pelatihan, topik yang diprediksi kurang koheren terhadap dokumen. Kata kunci: kontekstual, lintas bahasa, model topik, n-gram, pemelajaran zero-shot