Sistem Agregator Berita adalah sebuah sistem yang melakukan pengumpulan berita-berita dari berbagai sumber untuk kemudian diolah lebih lanjut dan disajikan dalam bentuk penyajian lain yang memudahkan pembacanya. Penyajian yang paling umum adalah penyajian berita berdasarkan kategori-kategori maupun topik-topik yang sedang hangat. Pengembangan sistem Agregator Berita telah sebelumnya dikembangkan oleh Natasha (Fakultas Ilmu Komputer – Universitas Indonesia) pada tahun 2010, namun masih banyak kekurangan-kekurangan yang dapat diperbaiki untuk meningkatkan performa dari sistem Agregator Berita ini. Melalui tugas akhir ini, penulis memperkenalkan fitur-fitur baru serta mepaparkan rancangan sistem yang lebih formal dan terstruktur. Penulis melakukan perancangan perbaikan pada tiga elemen Agregator Berita. Pada modul crawler, penulis mengajukan rancangan sistem ekstraksi dokumen (content extraction) untuk memperoleh isi berita secara keseluruhan dari suatu halaman web. Pada modul klasifikasi, penulis mengajukan penggunaan any-of classifier yang dinilai lebih relevan. Serta pada modul clustering dan pengelompokan dokumen berdasarkan topik, penulis mengajukan teknik analisa topik menggunakan term dengan teknik yang disebut term counting. Teknik content extraction yang dikembangkan diperoleh tingkat keberhasilan mencapai 96.24% untuk melakukan ekstraksi berita dari situs penyedia berita. Pada perbaikan modul klasifikasi diketahui bahwa fitur term frequency lebih baik dibandingkan fitur presence yang disimpulkan pada penelitian sebelumnya dengan akurasi 97.12%. Sedangkan teknik term counting secara statistik nilai silhouette memberikan hasil yang lebih baik dibandingkan teknik NMF yang digunakan pada sistem sebelumnya.