Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-2107 (Softcopy SK-1589), Sourcecode SK-790
Collection Type Skripsi
Title Eksplorasi keefektifan cross-lingual transfer learning untuk constituency parsing bahasa indonesia
Author Muhammad Faisal Adi Soesatyo;
Publisher Depok: Fakultas Ilmu Komputer UI, 2023
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-2107 (Softcopy SK-1589), Sourcecode SK-790 TERSEDIA
Tidak ada review pada koleksi ini: 51327
ABSTRAK Nama : Muhammad Faisal Adi Soesatyo Program Studi : Ilmu Komputer Judul : Eksplorasi Keefektifan Cross-lingual Transfer Learning un- tuk Constituency Parsing Bahasa Indonesia Pembimbing : Dr. Ika Alfina, S.Kom., M.Kom. Pendekatan transfer learning telah digunakan di beragam permasalahan, khususnya low- resource language untuk meningkatkan performa model di masing-masing permasalahan tersebut. Fokus pada penelitian ini ingin menyelidiki apakah pendekatan cross-lingual transfer learning mampu meningkatkan performa pada model constituency parsing bahasa Indonesia. Constituency parsing adalah proses penguraian kalimat berdasarkan konstituen penyusunnya. Terdapat dua jenis label yang disematkan pada konstituen penyusun tersebut, yakni POS tag dan syntactic tag. Parser model yang digunakan di penelitian ini berbasis encoder-decoder bernama Berkeley Neural Parser. Terdapat sebelas macam bahasa yang digunakan sebagai source language pada penelitian ini, di antaranya bahasa Inggris, Jerman, Prancis, Arab, Ibrani, Polandia, Swedia, Basque, Mandarin, Korea, dan Hungaria. Terdapat dua macam dataset bahasa Indonesia berformat Penn Treebank (PTB) yang digunakan, yakni Kethu dan ICON. Penelitian ini merancang tiga jenis skenario uji coba, di antaranya learning from scratch (LS), zero-shot transfer learning (ZS), dan transfer learning dengan fine-tune (FT). Pada dataset Kethu terdapat peningkatan F1 score dari 82.75 (LS) menjadi 84.53 (FT) atau sebesar 2.15%. Sementara itu, pada dataset ICON terjadi penurunan F1 score dari 88.57 (LS) menjadi 84.93 (FT) atau sebesar 4.11%. Terdapat kesamaan hasil akhir di antara kedua dataset tersebut, di mana masing-masing dataset menyajikan bahwa bahasa dari famili Semitic memiliki skor yang lebih tinggi dari famili bahasa lainnya. Kata kunci: constituency parsing, cross-lingual transfer learning, low-resource language, penn treebank, self-attention, syntactic analysis