ABSTRAK
Nama : Damar Fajar Tanjung
Program Studi : Ilmu Komputer
Judul : Pengembangan Korpus Paralel Bahasa Indonesia-Inggris
secara Otomatis dari Wikipedia dengan Pendekatan Jaccard
Similarity dan Levenshtein Distance
Korpus paralel merupakan salah satu komponen penting dalam implementasi mesin
penerjemah. Namun, ketersediaan korpus paralel yang dapat diakses untuk publik
sangat sulit ditemukan terlebih bahasa yang memiliki sumber terbatas seperti
bahasa Indonesia. Pengembangan korpus paralel secara manual membutuhkan
sumber daya yang tidak sedikit. Oleh karena itu, penelitian ini mencoba
mengembangkan korpus paralel secara otomatis bersumber dari artikel Wikipedia
bahasa Indonesia dan Inggris. Metode terbaik adalah menggunakan kombinasi
Jaccard similarity dan Levenshtein distance dengan melakukan sentence alignment
berdasarkan rasio panjang kalimat. Selain itu, dilakukan pula metode customized
stopwords removal di antara proses translasi menggunakan suatu leksikon
bilingual. Hasil akhir yang diperoleh adalah nilai F1 yakni 72.45%. Selain itu, lebih
dari 60% dari total dokumen memilik F1 lebih dari 0.8. Hal ini menunjukkan bahwa
artikel Wikipedia dapat digunakan sebagai sumber pengembangan korpus
Indonesia Inggris.
Kata Kunci:
Jaccard similarity, Levenshtein distance, stemming, stopwords removal, Wikipedia
|
|