Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1673 (Softcopy Sk-1155)
Collection Type Skripsi
Title Pengembangan korpus pengembangan parallel bahasa Indonesia-Inggris secara otomatis dari wikipedia dengan pendekatan jaccard similarity dan levenshtein distance
Author Damar Fajar Tanjung;
Publisher Depok: Fakulas Ilmu Komputer Universitas Indonesia, 2019
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1673 (Softcopy Sk-1155) TERSEDIA
Tidak ada review pada koleksi ini: 46471
ABSTRAK Nama : Damar Fajar Tanjung Program Studi : Ilmu Komputer Judul : Pengembangan Korpus Paralel Bahasa Indonesia-Inggris secara Otomatis dari Wikipedia dengan Pendekatan Jaccard Similarity dan Levenshtein Distance Korpus paralel merupakan salah satu komponen penting dalam implementasi mesin penerjemah. Namun, ketersediaan korpus paralel yang dapat diakses untuk publik sangat sulit ditemukan terlebih bahasa yang memiliki sumber terbatas seperti bahasa Indonesia. Pengembangan korpus paralel secara manual membutuhkan sumber daya yang tidak sedikit. Oleh karena itu, penelitian ini mencoba mengembangkan korpus paralel secara otomatis bersumber dari artikel Wikipedia bahasa Indonesia dan Inggris. Metode terbaik adalah menggunakan kombinasi Jaccard similarity dan Levenshtein distance dengan melakukan sentence alignment berdasarkan rasio panjang kalimat. Selain itu, dilakukan pula metode customized stopwords removal di antara proses translasi menggunakan suatu leksikon bilingual. Hasil akhir yang diperoleh adalah nilai F1 yakni 72.45%. Selain itu, lebih dari 60% dari total dokumen memilik F1 lebih dari 0.8. Hal ini menunjukkan bahwa artikel Wikipedia dapat digunakan sebagai sumber pengembangan korpus Indonesia Inggris. Kata Kunci: Jaccard similarity, Levenshtein distance, stemming, stopwords removal, Wikipedia