Perpustakaan Fakultas Ilmu Komputer

Call Number	DIS- 129 (Softcopy DIS-120) MAK PI-33/34 TR-CSUI-71/72
Collection Type	Disertasi
Title	Canonical Segmentation untuk Meningkatkan Hasil Terjemahan Mesin Bahasa Jawa-Bahasa Indonesia
Author	Sri Hartati WIjono;
Publisher	Depok: Fasilkom UI, 2024
Subject	Canonical Segmentation
Location

Lokasi : Perpustakaan Fakultas Ilmu Komputer

Nomor Panggil	ID Koleksi	Status
DIS- 129 (Softcopy DIS-120) MAK PI-33/34 TR-CSUI-71/72		TERSEDIA

MAK PI-034 Sri Hartati Wijono-1606947143.pdf

MAK PI-033 Sri Hartati Wijono-1606947143.pdf

TR-CSUI- 072 Sri Hartati Wijono-1606947143.pdf

DIS-129 (Softcopy DIS-120) Sri Hartati Wijono-1606947143.pdf

TR-CSUI- 071 Sri Hartati Wijono-1606947143.pdf

Tidak ada review pada koleksi ini: 55024

ABSTRAK

Nama : Sri Hartati Wijono Program Studi : Doktor Ilmu Komputer Judul : Canonical Segmentation Untuk Meningkatkan Hasil Terjemahan Mesin bahasa Jawa – bahasa Indonesia Pembimbing : Prof. Dr. Eng. Wisnu Jatmiko, S.T., M.Kom. Terjemahan mesin adalah program komputer yang menerjemahkan kata dari satu bahasa ke bahasa lain. Neural Machine Translation (NMT) merupakan salah satu jenis terjemahan mesin yang menggunakan hasil pelatihan corpus paralel untuk menerjemahkan kata. Proses NMT dengan pelatihan menggunakan corpus paralel dalam jumlah besar (high resource) dapat memberikan hasil terjemahan sangat baik. Tetapi proses NMT yang dilatih menggunakan corpus paralel dalam jumlah kecil (low-resource) tidak mampu memberikan penerjemahan kata dengan baik akibat adanya out-of-vocabulary (OOV). Salah satu cara mengurangi OOV pada low-resourse NMT adalah melatih NMT menggunakan subword dari hasil segmentasi kata. Canonical segmentation dipilih untuk mengsegmentasi kata bahasa Jawa dan bahasa Indonesia menjadi subword afiks dan subword root word yang mengalami alomorf. Hal ini dikarenakan kedua hasil subword tersebut memiliki makna linguistik yang dapat digunakan untuk mengurangi OOV. Proses canonical segmentation tersebut dilakukan menggunakan encoder-decoder Transformer dengan memanipulasi masukannya sebagai usulan dari penelitian. Penelitian ini juga mengembangkan algoritma untuk membuat dataset canonical segmentation bahasa Jawa yang digunakan untuk melatih Transformer. Manipulasi masukan Transformer tersebut berupa penggunaan tag fitur afiks dan root word atau tag fitur afiks dan urutan root word yang digabungkan ke setiap karakter masukan untuk membantu proses pembelajaran Transformer. Manipulasi usulan ini menghasilkan akurasi segmentasi sebesar 84,29% untuk semua kata, 69,82% untuk kata berimbuhan dan 56,09% untuk kata berimbuhan canonical. Nilai F1 yang dihasilkan 92,89% untuk semua kata, 98,69% untuk kata berimbuhan dan 96,81% untuk kata berimbuhan canonical. Subword hasil proses segmentasi ini selanjutnya digabung dengan tag fitur berupa afiks dan root word untuk menguji low-resource NMT. Metode ini dapat eningkatkan nilai BLEU sebesar +3,55 poin dibandingkan penggunaan kata tanpa segmentasi dan meningkat +2,57 poin dibandingkan penggunaan subword BPE yang banyak dipakai saat ini. Kata kunci : low-resource Neural Machine Translation, canonical segmentation, terjemahan mesin bahasa Jawa- bahasa Indonesia, tag fitur