Call Number | DIS- 129 (Softcopy DIS-120) MAK PI-33/34 TR-CSUI-71/72 |
Collection Type | Disertasi |
Title | Canonical Segmentation untuk Meningkatkan Hasil Terjemahan Mesin Bahasa Jawa-Bahasa Indonesia |
Author | Sri Hartati WIjono; |
Publisher | Depok: Fasilkom UI, 2024 |
Subject | Canonical Segmentation |
Location |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
DIS- 129 (Softcopy DIS-120) MAK PI-33/34 TR-CSUI-71/72 | TERSEDIA |
Nama : Sri Hartati Wijono Program Studi : Doktor Ilmu Komputer Judul : Canonical Segmentation Untuk Meningkatkan Hasil Terjemahan Mesin bahasa Jawa – bahasa Indonesia Pembimbing : Prof. Dr. Eng. Wisnu Jatmiko, S.T., M.Kom. Terjemahan mesin adalah program komputer yang menerjemahkan kata dari satu bahasa ke bahasa lain. Neural Machine Translation (NMT) merupakan salah satu jenis terjemahan mesin yang menggunakan hasil pelatihan corpus paralel untuk menerjemahkan kata. Proses NMT dengan pelatihan menggunakan corpus paralel dalam jumlah besar (high resource) dapat memberikan hasil terjemahan sangat baik. Tetapi proses NMT yang dilatih menggunakan corpus paralel dalam jumlah kecil (low-resource) tidak mampu memberikan penerjemahan kata dengan baik akibat adanya out-of-vocabulary (OOV). Salah satu cara mengurangi OOV pada low-resourse NMT adalah melatih NMT menggunakan subword dari hasil segmentasi kata. Canonical segmentation dipilih untuk mengsegmentasi kata bahasa Jawa dan bahasa Indonesia menjadi subword afiks dan subword root word yang mengalami alomorf. Hal ini dikarenakan kedua hasil subword tersebut memiliki makna linguistik yang dapat digunakan untuk mengurangi OOV. Proses canonical segmentation tersebut dilakukan menggunakan encoder-decoder Transformer dengan memanipulasi masukannya sebagai usulan dari penelitian. Penelitian ini juga mengembangkan algoritma untuk membuat dataset canonical segmentation bahasa Jawa yang digunakan untuk melatih Transformer. Manipulasi masukan Transformer tersebut berupa penggunaan tag fitur afiks dan root word atau tag fitur afiks dan urutan root word yang digabungkan ke setiap karakter masukan untuk membantu proses pembelajaran Transformer. Manipulasi usulan ini menghasilkan akurasi segmentasi sebesar 84,29% untuk semua kata, 69,82% untuk kata berimbuhan dan 56,09% untuk kata berimbuhan canonical. Nilai F1 yang dihasilkan 92,89% untuk semua kata, 98,69% untuk kata berimbuhan dan 96,81% untuk kata berimbuhan canonical. Subword hasil proses segmentasi ini selanjutnya digabung dengan tag fitur berupa afiks dan root word untuk menguji low-resource NMT. Metode ini dapat eningkatkan nilai BLEU sebesar +3,55 poin dibandingkan penggunaan kata tanpa segmentasi dan meningkat +2,57 poin dibandingkan penggunaan subword BPE yang banyak dipakai saat ini. Kata kunci : low-resource Neural Machine Translation, canonical segmentation, terjemahan mesin bahasa Jawa- bahasa Indonesia, tag fitur