ABSTRAK
Nama : Hanif Arkan Audah
Program Studi : Ilmu Komputer
Judul : Perbandingan Metode Pemeriksa Ejaan antara SymSpell
dan Kombinasi Damerau-Levenshtein Distance dengan
Struktur Data Trie
Pembimbing : Dr. Ika Alfina, S.Kom., M.Kom.
Arlisa Yuliawati, S.Kom., M.Kom.
Non-word error merupakan kesalahan ejaan yang menghasilkan kata yang tidak ada
dalam kamus. Tujuan dari penelitian ini adalah membandingkan dua metode pemeriksa
ejaan non-word error, yaitu SymSpell dan kombinasi Damerau-Levenshtein distance dengan struktur data trie. Kedua metode tersebut melakukan isolated-word error correction
terhadap non-word error. Dalam implementasi, SymSpell dibedakan menjadi dua, yaitu
weighted dan unweighted. Proses perbandingan metode dimulai dengan penyusunan
kamus menggunakan entri kata dari KBBI V yang diperkaya dengan kata-kata tambahan
dari Wiktionary. Kamus yang dihasilkan memuat 91.557 kata. Selanjutnya, disusun
dataset uji yang dibuat secara sintetis dengan memanfaatkan modifikasi dari candidate
generation Peter Norvig. Dataset uji sintetis yang dihasilkan memuat 58.532 kata salah
eja. Dilakukan perbandingan antara Weighted SymSpell, Unweighted SymSpell, dan
kombinasi Damerau-Levenshtein distance dengan struktur data trie menggunakan dataset
uji sintetis tersebut. Perbandingan tersebut mengukur best match accuracy, candidate
accuracy, dan run time. Hasil perbandingan menyimpulkan bahwa SymSpell memiliki
performa yang lebih baik dibandingkan dengan metode kombinasi Damerau-Levenshtein
distance dan struktur data trie karena unggul dari aspek best match accuracy dan run
time serta memperoleh candidate accuracy yang setara dengan metode-metode lain.
Implementasi SymSpell yang unggul, yaitu Weighted SymSpell memperoleh best match
accuracy 66,79%, candidate accuracy 99,33%, dan run time 0,39 ms per kata.
Kata kunci:
Pemeriksa ejaan, non-word error, isolated-word error correction, SymSpell, edit distance, Damerau-Levenshtein
|
|