Segmentasi dokumen merupakan suatu proses untuk membagi dokumen menjadi bagian-bagian yang homogen atau memiliki keterkaitan yang tinggi. Pada tugas akhir ini digunakan genetic algorithm sebagai metode untuk melakukan segmentasi dokumen. Genetic algorithm merupakan suatu algoritma pencarian solusi terhadap permasalahan dengan search space yang besar dengan menggunakan pendekatan evolusi. Penelitian tentang segmentasi dokumen menggunakan genetic algorithm telah dilakukan oleh Lamprier (Lamprier et al., 2007) terhadap dokumen bahasa Inggris dengan hasil yang memuaskan. Pada
penelitian yang dilakukan Lamprier, proses segmentasi dilakukan dengan mengoptimisasi 2 fungsi objektif yaitu internal cohesion dan dissimilarity. Data yang digunakan pada percobaan ini terdiri dari dokumen artikel media massa Indonesia dan abstrak tulisan ilmiah dari Fakultas Ilmu Komputer Universitas Indonesia. Percobaan ini dilakukan dan dianalisa dari beberapa aspek yaitu aspek fitness function, metode penghitungan similarity, jumlah iterasi, ukuran populasi,
jumlah segmen, dan kemiripan antar dokumen penyusun. Selain itu dilakukan pula perbandingan hasil segmentasi antara metode genetic algorithm dengan metode Texttiling. Hasil percobaan yang didapat adalah segmentasi dokumen menggunakan genetic algorithm dengan fitness function SPEA 2, metode penghitungan similarity menggunakan dice coefficient, jumlah iterasi 1000 iterasi, ukuran populasi 50 individu, tipe crossover two point crossover, dan probabilitas mutasi 0.09 memberikan hasil segmentasi terbaik. Pada percobaan untuk
membandingkan 2 metode segmentasi yaitu genetic algorithm dan Texttiling diperoleh hasil precision 0.081 dan recall 0.46 untuk metode genetic algorithm dan precision 0.12 dan recall 0.58 untuk metode Texttiling. Dari data hasil percobaan diperoleh kesimpulan bahwa hasil segmentasi dengan metode Texttiling lebih baik daripada hasil segmentasi dengan metode genetic algorithm. Hasil ini bertolak belakang dengan apa yang dilaporakan pada penelitian yang dilakukan Lamprier (Lamprier et al., 2007), hal tersebut dipengaruhi oleh data
dan penggunaan genetic operator yang lebih kompleks.
|
|