Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number Dis-117 (Softcopy Dis-108) Mak Dis-18
Collection Type Disertasi
Title Peringkasan Lintas Bahasa Berbasis Transformer Menggunakan Multilingual Word Embeddings Untuk Domain Bahasa Inggris-Indonesia
Author Achmad F. Abka;
Publisher Depok: Fakultas Ilmu Komputer UI, 2023
Subject
Location
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
Dis-117 (Softcopy Dis-108) Mak Dis-18 TERSEDIA
Tidak ada review pada koleksi ini: 51594
ABSTRAK

ABSTRAK Nama : Achmad Fatchuttamam Abka Program Studi : Doktor Ilmu Komputer Judul : Peringkasan Lintas Bahasa Berbasis Transformer Menggunakan Multilingual Word Embeddings untuk Domain Bahasa Inggris-Indonesia Pembimbing : Prof. Dr. Eng. Wisnu Jatmiko, S.T., M.Kom. Peringkasan lintas bahasa adalah sebuah proses menghasilkan ringkasan dalam bahasa target dari dokumen sumber berbahasa lain. Peringkasan lintas bahasa merupakan permasalahan yang sangat menantang karena melibatkan dua bahasa yang berbeda. Secara tradisional, peringkasan lintas bahasa dilakukan dalam skema pipeline yang melibatkan dua langkah, yaitu penerjemahan dan peringkasan. Pendekatan ini memiliki masalah, yaitu munculnya error propagation. Untuk mengatasi masalah tersebut, penelitian ini mengusulkan peringkasan lintas bahasa abstraktif end-to-end tanpa secara eksplisit menggunakan mesin penerjemah. Arsitektur peringkasan lintas bahasa yang diusulkan berbasis Transformer yang sudah terbukti memiliki performa baik dalam melakukan text generation. Model peringkasan lintas bahasa dilatih dengan 2-task learning yang merupakan gabungan peringkasan lintas bahasa dan peringkasan satu bahasa. Hal ini dilakukan dengan menambahkan decoder kedua pada Transformer untuk menangani peringkasan satu bahasa, sementara decoder pertama menangani peringkasan lintas bahasa. Lebih lanjut, arsitektur peringkasan lintas bahasa juga ditambahkan komponen multilingual word embeddings untuk lebih meningkatkan performa model. Kedua bahasa, bahasa Inggris dan bahasa Indonesia, direpresentasikan oleh multilingual word embeddings yang nilai embedding-nya sudah dipetakan ke dalam ruang vektor yang sama. Multilingual word embeddings membantu model dalam memetakan relasi antara input dan output yang menggunakan bahasa berbeda. Evaluasi model dilakukan dengan menggunakan metrik ROUGE. Metrik pengukuran ini membandingkan ringkasan yang dihasilkan oleh sistem dengan ringkasan referensi. Skor ROUGE memiliki rentang nilai dari 0 hingga 100 dengan semakin besar nilai menandakan performa yang semakin baik. Hasil eksperimen menunjukkan model usulan mendapatkan kenaikan performa hingga +32,11 ROUGE-1, +24,59 ROUGE-2, +30,97 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Inggris ke ringkasan berbahasa Indonesia dan hingga +30,48 ROUGE-1, +27,32 ROUGE-2, +32,99 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Indonesia ke ringkasan berbahasa Inggris. Kata kunci: Peringkasan lintas bahasa, peringkasan otomatis, transformer, multilingual word embeddings