Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-2091 (Softcopy SK-1573), Source Code Sk-788
Collection Type Skripsi
Title Perbandingan metode pemeriksa ejaan antara symspell dan kombinasi damerau-levennshtein distance dengan struktur data trie
Author Hanif Arkan Audah;
Publisher Depok: Fakultas Ilmu Komputer UI, 2023
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-2091 (Softcopy SK-1573), Source Code Sk-788 TERSEDIA
Tidak ada review pada koleksi ini: 51308
ABSTRAK Nama : Hanif Arkan Audah Program Studi : Ilmu Komputer Judul : Perbandingan Metode Pemeriksa Ejaan antara SymSpell dan Kombinasi Damerau-Levenshtein Distance dengan Struktur Data Trie Pembimbing : Dr. Ika Alfina, S.Kom., M.Kom. Arlisa Yuliawati, S.Kom., M.Kom. Non-word error merupakan kesalahan ejaan yang menghasilkan kata yang tidak ada dalam kamus. Tujuan dari penelitian ini adalah membandingkan dua metode pemeriksa ejaan non-word error, yaitu SymSpell dan kombinasi Damerau-Levenshtein distance dengan struktur data trie. Kedua metode tersebut melakukan isolated-word error correction terhadap non-word error. Dalam implementasi, SymSpell dibedakan menjadi dua, yaitu weighted dan unweighted. Proses perbandingan metode dimulai dengan penyusunan kamus menggunakan entri kata dari KBBI V yang diperkaya dengan kata-kata tambahan dari Wiktionary. Kamus yang dihasilkan memuat 91.557 kata. Selanjutnya, disusun dataset uji yang dibuat secara sintetis dengan memanfaatkan modifikasi dari candidate generation Peter Norvig. Dataset uji sintetis yang dihasilkan memuat 58.532 kata salah eja. Dilakukan perbandingan antara Weighted SymSpell, Unweighted SymSpell, dan kombinasi Damerau-Levenshtein distance dengan struktur data trie menggunakan dataset uji sintetis tersebut. Perbandingan tersebut mengukur best match accuracy, candidate accuracy, dan run time. Hasil perbandingan menyimpulkan bahwa SymSpell memiliki performa yang lebih baik dibandingkan dengan metode kombinasi Damerau-Levenshtein distance dan struktur data trie karena unggul dari aspek best match accuracy dan run time serta memperoleh candidate accuracy yang setara dengan metode-metode lain. Implementasi SymSpell yang unggul, yaitu Weighted SymSpell memperoleh best match accuracy 66,79%, candidate accuracy 99,33%, dan run time 0,39 ms per kata. Kata kunci: Pemeriksa ejaan, non-word error, isolated-word error correction, SymSpell, edit distance, Damerau-Levenshtein