ABSTRAK

Perusahaan XYZ menghadapi masalah pencatatan ganda pada data pelanggan. Untuk mengatasinya, perusahaan menggunakan mekanisme deteksi berbasis aturan dengan empat parameter: nama pelanggan, tanggal lahir, nama ibu kandung, dan nomor identitas. Namun, mekanisme ini tidak dapat mendeteksi seluruh data ganda karena adanya kesalahan input seperti kesalahan ketik (typographical error). Masalah ini ditemukan oleh regulator dan audit internal. Selain itu, besarnya data pelanggan membuat proses pengolahan menjadi kompleks dan memakan waktu. Untuk mengatasi hal tersebut, digunakan metode blocking berdasarkan tahun lahir dan parallel computing. Penelitian ini membandingkan lima algoritma untuk mendeteksi potensi data ganda, yaitu: rulebased dengan kesamaan lebih dari dua parameter, Jaccard, Levenshtein, Jaro-Winkler, dan Longest Common Substring (LCS). Data yang digunakan berasal dari perusahaan XYZ dimana diantaranya terdapat data ganda yang ditemukan oleh audit internal yang tidak terdeteksi oleh mekanisme berbasis aturan. Algoritma yang digunakan harus mampu mendeteksi seluruh data ganda yang ditemukan oleh audit internal dan mengurangi proses manual pencarian data ganda. Hasil penelitian menunjukkan bahwa algoritma LCS dengan tingkat similarity di atas 80% adalah yang paling efektif, dengan tingkat akurasi deteksi mencapai 74,78%. Meskipun demikian, hasil penelitian ini hanya mengidentifikasi potensi data ganda, sehingga verifikasi manual tetap diperlukan, namun dengan jumlah data yang lebih sedikit, verifikasi menjadi lebih efisien.