ABSTRAK
Nama : Indra Eka Prasetya
Program Studi : Ilmu Komputer
Judul : Sistem Ekstraksi Konten Dokumen Web Seragam dengan
Pendekatan Frequent Pattern Mining
Suatu halaman web selain mengandung bagian isi atau konten juga mengandung
bagian-bagian lainnya sebagai pelengkap dari halaman web tersebut yang biasa
disebut noise. Noise tersebut biasanya berupa iklan, menu navigasi, dan lainnya
tentu tidak relevan dengan informasi yang berada pada konten web tersebut. Sementara
itu biasanya hanya bagian content saja yang dibutuhkan, terutama sebagai
penelitian di bidang perolehan informasi. Oleh karena itu telah banyak penelitian
dilakukan untuk dapat memperoleh konten dari halaman web ini secara otomatis
salah satunya adalah teknik text density oleh Fei Sun pada tahun 2011. Meskipun
sudah memiliki performa akurasi yang cukup baik tetapi ketika digunakan untuk
mengekstrak banyak halaman web yang berasal dari situs yang sama, teknik ini
membutuhkan waktu eksekusi yang cukup tinggi. Hal ini dikarenakan sistem ekstraksi
konten milik Fei ini harus menghitung ulang setiap atribut yang diperlukan
untuk setiap halaman web yang ingin diekstrak. Penelitian ini melakukan perbaikan
terhadap sistem ekstraksi konten dengan text density untuk menyelesaikan permasalah
tersebut dengan memanfaatkan pendekatan frequent pattern mining oleh
Jiawei Han pada tahun 2004. Setelah dilakukan evaluasi terhadap akurasi, sistem
ekstraksi konten dengan frequent pattern mining mampu meningkatkan performa
dari sistem ekstraksi konten dengan text density milik Fei pada tiga dari empat situs
yang diujicobakan. Sementara itu dalam sisi waktu eksekusi, sistem ekstraksi konten
dengan frequent pattern mining memiliki waktu eksekusi yang lebih rendah di
semua situs yang diujicobakan.
Kata Kunci:
ekstraksi konten, text density, frequent pattern, frequent pattern mining
vii
|
|