ABSTRAK
ABSTRAK
Nama : Mukhlizar Nirwan Samsuri
Program Studi : Ilmu Komputer
Judul : Perbandingan Penggunaan Kamus Terdistribusi, Partition
Around Medoids (PAM) dan Struktur Data Trie dalam
Perbaikan Ejaan Otomatis pada Teks Formal Bahasa
Indonesia
Pembimbing I : Dr. Ika Alfina, S.Kom., M.Kom.
Pembimbing II : Arlisa Yuliawati, S.Kom., M.Kom.
Kesalahan ejaan dapat dibagi menjadi dua jenis, non-word errors dan real-word
errors. Non-word errors adalah kesalahan eja yang tidak terdapat dalam kamus,
sedangkan real-word errors adalah kata yang terdapat pada kamus tetapi berada
pada tempat yang tidak tepat pada kalimat. penelitian ini berfokus pada koreksi
ejaan untuk non-word errors pada teks formal Bahasa Indonesia.
Tujuan dari penelitian ini adalah untuk membandingkan efektivitas tiga jenis
struktur kamus untuk koreksi ejaan, antara lain kamus terdistribusi, kamus PAM
(Partition Around Medoids), dan kamus menggunakan struktur data trie. Ketiga
jenis kamus juga akan dibandingkan dengan kamus sederhana yang dijadikan
sebagai baseline. Tahap pengurutan kandidat (ranking correction candidates)
dilakukan dengan menggunakan dua variasi dari edit distance, yaitu Levenshtein
dan Damerau-Levenshtein dan n-gram. Guna mendukung penelitian ini, dibangun
dataset gold standard dari 200 kalimat yang terdiri dari 4.323 token dengan 288 di
antaranya adalah non-word errors.
Berdasarkan kombinasi tipe kamus dan edit distance, didapatkan hasil bahwa
struktur data trie dengan Damerau-Levenshtein distance memperoleh accuracy
terbaik untuk menghasilkan kandidat koreksi, yaitu 95,89% dalam 45,31 detik.
Selanjutnya, kombinasi struktur data trie dengan Damerau-Levenshtein distance
juga mendapatkan accuracy terbaik dalam memilih kandidat terbaik, yaitu 73,15%.
Kata kunci: automatic spelling correction, kamus terdistribusi, non-word error,
struktur data trie, Partition Around Medoids (PAM)
|