Halaman web biasanya tidak hanya mengandung isi utama dari halaman itu saja. Ada berbagai informasi tambahan lainnya yang tidak ada kaitannya dengan isi utama halaman tersebut, misalnya kolom iklan, menu navigasi, catatan hak kepemilikan dan disclaimer. Informasi tambahan yang biasa disebut noise ini dapat mengganggu proses perolehan informasi dari halaman web tersebut. Maka dari itu dibutuhkan suatu metode ekstraksi isi untuk memperoleh isi utama dan mengeliminasi noise pada suatu halaman web. Pada penelitian ini diimplementasikan metode Content Extraction via Text Density (CETD). Ada 2 variasi metode CETD yang diimplementasikan yaitu Content Extraction via Text Density with Density sum (CETD-DS) dan Content Extraction via Composite text density with Density sum (CECTD-DS). Hasil evaluasi akurasi dari sistem ini telah dibandingkan dengan sistem berbasis metode ekstraksi lainnya. CETD-DS menghasilkan rata-rata nilai F1 83.03% dan CECTD-DS menghasilkan rata-rata nilai F1 84.92%. Nilai F1 kedua variasi CETD ini adalah yang terbaik di antara semua metode yang diujicobakan pada penelitian ini.