ABSTRAK
Perusahaan XYZ menghadapi masalah pencatatan ganda pada data pelanggan. Untuk
mengatasinya, perusahaan menggunakan mekanisme deteksi berbasis aturan dengan
empat parameter: nama pelanggan, tanggal lahir, nama ibu kandung, dan nomor identitas.
Namun, mekanisme ini tidak dapat mendeteksi seluruh data ganda karena adanya
kesalahan input seperti kesalahan ketik (typographical error). Masalah ini ditemukan oleh
regulator dan audit internal. Selain itu, besarnya data pelanggan membuat proses
pengolahan menjadi kompleks dan memakan waktu. Untuk mengatasi hal tersebut,
digunakan metode blocking berdasarkan tahun lahir dan parallel computing. Penelitian
ini membandingkan lima algoritma untuk mendeteksi potensi data ganda, yaitu: rulebased dengan kesamaan lebih dari dua parameter, Jaccard, Levenshtein, Jaro-Winkler,
dan Longest Common Substring (LCS). Data yang digunakan berasal dari perusahaan
XYZ dimana diantaranya terdapat data ganda yang ditemukan oleh audit internal yang
tidak terdeteksi oleh mekanisme berbasis aturan. Algoritma yang digunakan harus
mampu mendeteksi seluruh data ganda yang ditemukan oleh audit internal dan
mengurangi proses manual pencarian data ganda. Hasil penelitian menunjukkan bahwa
algoritma LCS dengan tingkat similarity di atas 80% adalah yang paling efektif, dengan
tingkat akurasi deteksi mencapai 74,78%. Meskipun demikian, hasil penelitian ini hanya
mengidentifikasi potensi data ganda, sehingga verifikasi manual tetap diperlukan, namun
dengan jumlah data yang lebih sedikit, verifikasi menjadi lebih efisien.
|