ABSTRAK
Nama Mahasiswa 1
Nama Mahasiswa 2
Nama Mahasiswa 3
Program Studi
Judul
Pembimbing 1
Pembimbing 2
: Harakan Akbar
: Julian Fernando
: R. Fausta Anugrah Dianparama
: Sistem Informasi dan Ilmu Komputer
: Pengembangan Metode Ekstraksi Sumber Daya NLP dari
Kamus Dwibahasa Indonesia dan Bahasa Daerah
: Rahmad Mahendra, S.Kom., M.Sc.
: Dipta Tanaya, S.Kom., M.Kom.
Perkembangan NLP bahasa daerah di Indonesia masih tergolong lambat. Banyak faktor
yang melatarbelakangi hal tersebut, seperti dokumentasi bahasa yang buruk, penutur
bahasa yang sedikit, dan kurangnya sumber daya untuk mempelajari NLP bahasa
daerah. Penelitian ini bertujuan untuk mengembangkan metode ekstraksi kamus
dwibahasa Indonesia dan bahasa daerah yang umum untuk menghasilkan sumber daya
NLP. Sistem yang dihasilkan mampu mengolah banyak kamus dwibahasa sekaligus
menjadi sumber daya NLP. Kamus terlebih dahulu dikonversi ke dalam bentuk machine
readable dan diolah ke bentuk korpus entri sebelum dilakukan ekstraksi. Korpus entri
adalah korpus yang mengandung informasi lengkap setiap entri di dalam kamus beserta
jenis font, ukuran, dan posisi setiap kata pada entri di dalam kamus dwibahasa. Proses
ekstraksi dilakukan dengan memperhatikan pola entri sehingga perlu dilakukan tahap
standardisasi entri terlebih dahulu sebelum sumber daya dibentuk. Selain pembentukan
sumber daya, dilakukan pula perbaikan ejaan khusus untuk sumber daya korpus paralel.
Dalam mengevaluasi hasil ekstraksi, diambil beberapa kamus dwibahasa sebagai
sampel. Evaluasi dilakukan dengan memperhatikan ketepatan peletakan setiap
komponen entri di dalam hasil ekstraksi. Tim peneliti menemukan bahwa sistem yang
dibangun telah berhasil mengekstrak sumber daya NLP berupa leksikon bilingual,
kamus morfologi, dan korpus paralel dengan optimal pada 32 kamus dwibahasa
Indonesia dan bahasa daerah. Masih terdapat beberapa kekurangan pada sistem yang
berhasil dibangun karena proses ekstraksi sangat bergantung dengan ketepatan
pendeteksian font sehingga kualitas kamus masih memberikan pengaruh yang besar
pada kualitas hasil ekstraksi.
Kata kunci: Leksikon Bilingual, Korpus Paralel, Kamus Morfologi, Kamus Dwibahasa
Indonesia dan Bahasa Daerah, Natural Language Processing
|
|