Call Number | T-1345 (Softcopy T-1054) Mak T-145 |
Collection Type | Tesis |
Title | Mctrlsum: penggunaan pretrained language generation model berbasis multilingual pada abstractive summarization terkontrol menggunkan keyphrase |
Author | Sugiri; |
Publisher | Depok:Fasilkom UI,2022 |
Subject | |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
T-1345 (Softcopy T-1054) Mak T-145 | TERSEDIA |
ABSTRAK Nama : Sugiri Program Studi : Ilmu Komputer Judul : mCTRLSum: Penggunaan Pretrained Language Genera- tion Model Berbasis Multilingual pada Abstractive Summa- rization Terkontrol Menggunakan Keyphrase Sebagian besar studi terbaru dalam abstractive summarization melakukan pendekatan dengan melakukan fine-tuning pretrained language generation model (PLGM). PLGM yang digunakan biasanya merupakan versi monolingual, yang hanya memiliki informasi bahasa yang sesuai dengan dataset yang digunakan. Penelitian ini menggunakan PLGM berbasis multilingual, yang menghasilkan kinerja yang cukup kompetitif jika dibandingkan dengan solusi state-of-the-art yang ada. Dengan menggunakan PLGM berbasis multilingual manfaat yang dihasilkan akan berdampak lebih luas sebanyak informasi bahasa yang dimiliki oleh PLGM terkait. Teknik CTRLSum, yaitu penamba- han keyphrase di awal source document, terbukti dapat membuat PLGM menghasilkan summary sesuai dengan keyphrase yang disertakan. Penelitian ini menggunakan teknik mCTRLSum, yaitu teknik CTRLSum dengan menggunakan multilingual PLGM. Untuk mendapatkan keyphrase, selain dengan menggunakan teknik keyphrase extraction (KPE) yang memilih kata yang ada di source document, juga digunakan teknik keyphrase generation (KPG) yaitu teknik pembangkitan suatu set kata/frasa berdasarkan suatu source document. Pada dataset berbahasa Inggris, tidak hanya dilatih menggunakan oracle keyphrase sebagai pseudo-target dari dataset summarization, model KPG juga dilatih menggunakan dataset khusus permasalahan KPG dengan domain dan bahasa yang sama. Dengan teknik mCTRLSum yang memanfaatkan oracle keyphrase, penelitian ini mendeklarasikan batas atas solusi permasalahan abstractive summarization pada dataset Liputan6, dan XLSum berbahasa Inggris, Indonesia, Spanyol, dan Perancis dengan peningkatan terbesar pada dataset Liputan6 sebanyak 22.54 skor ROUGE-1, 18.36 skor ROUGE-2, 15.81 skor ROUGE-L, dan 7.16 skor BERTScore, dan rata-rata 9.36 skor ROUGE-1, 6.47 skor ROUGE-2, 6.68 skor ROUGE-L dan 3.14 BERTScore pada dataset XLSum yang digunakan pada penelitian ini. Kata kunci: Controllable abstractive summarization, multilingual, transfer-learning