ABSTRAK
Mahasiswa 1 : Daniel Martin
Mahasiswa 2 : Intan Fadilla Andyani
Mahasiswa 3 : Luqman Maulana Rizki
Program Studi : Ilmu Komputer
Judul : Penambangan Kamus Dwibahasa: Studi Percontohan pada
Bahasa Indonesia dan Bahasa-Bahasa Daerah
Pembimbing 1 : Rahmad Mahendra, S.Kom., M.Sc.
Pembimbing 2 : Dipta Tanaya, S.Kom., M.Kom.
Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah
Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik
sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode
ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya
NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus,
perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian
berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam
format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya
adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan
metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen
pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus
Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap
penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil
ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk
korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah
Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus,
seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa
daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan
dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.
Kata kunci: Kamus dwibahasa, bahasa daerah Indonesia, perolehan informasi, natural
language processing, korpus paralel, leksikon bilingual
|
|