Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1172 (Softcopy SK-654) Source code SK-448
Collection Type Skripsi
Title Ekstraksi isi halaman web menggunakan metode content extraction via text density (CETD)
Author Rangga Hadisurya;
Publisher Depok: Fakultas Ilmu Komputer, 2013
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1172 (Softcopy SK-654) Source code SK-448 TERSEDIA
Tidak ada review pada koleksi ini: 40886
Halaman web biasanya tidak hanya mengandung isi utama dari halaman itu saja. Ada berbagai informasi tambahan lainnya yang tidak ada kaitannya dengan isi utama halaman tersebut, misalnya kolom iklan, menu navigasi, catatan hak kepemilikan dan disclaimer. Informasi tambahan yang biasa disebut noise ini dapat mengganggu proses perolehan informasi dari halaman web tersebut. Maka dari itu dibutuhkan suatu metode ekstraksi isi untuk memperoleh isi utama dan mengeliminasi noise pada suatu halaman web. Pada penelitian ini diimplementasikan metode Content Extraction via Text Density (CETD). Ada 2 variasi metode CETD yang diimplementasikan yaitu Content Extraction via Text Density with Density sum (CETD-DS) dan Content Extraction via Composite text density with Density sum (CECTD-DS). Hasil evaluasi akurasi dari sistem ini telah dibandingkan dengan sistem berbasis metode ekstraksi lainnya. CETD-DS menghasilkan rata-rata nilai F1 83.03% dan CECTD-DS menghasilkan rata-rata nilai F1 84.92%. Nilai F1 kedua variasi CETD ini adalah yang terbaik di antara semua metode yang diujicobakan pada penelitian ini.