ABSTRAK
Jenis bencana alam, lokasi, dan waktu kejadian adalah informasi minimal bisa mengindikasi terjadinya sebuah bencana alam. Salah satu sumber informasi kejadian bencana alam adalah dari berita di media siber. Suatu sistem informasi tentang bencana alam bisa memanfaatkan berita di media siber sebagai sumber data, namun harus mengubah data teks berita menjadi bentuk data terstruktur. Teknik penambangan teks yang bisa digunakan untuk mendapatkan data terstruktur dari suatu kumpulkan teks. Penelitian ini melakukan eksplorasi efektivitas teknik penambangan data untuk mengekstrak informasi jenis bencana alam, lokasi, dan waktu kejadian. Metode web scraping digunakan untuk mengumpulkan data teks berita dari media siber dan anotasi manual dilakukan untuk membuat data gold standard. Penelitian ini menggunakan klasifikasi teks dengan machine learning untuk mengetahui jenis bencana alam yang diberitakan. Klasifikasi biner diterapkan untuk mengetahui pemberitaan tentang bencana angin topan, banjir, erupsi, gempa, karhutla, kekeringan, longsor, dan tsunami. Algoritma yang diuji untuk klasifikasi teks adalah Multinomial Naive Bayes, Support Vector Machine, Random Forest, Linear Regression dan Adaboost. Penelitian ini memanfaatkan aplikasi Stanford NER untuk mengetahui entitas lokasi di suatu teks, kemudian gazetteer digunakan untuk pemetaan wilayah administrasi. Penelitian ini menggunakan pencocokan pola teks dengan regular expression untuk mengekstrak informasi tanggal kejadian bencana alam. Nilai F1 dari model klasifikasi penelitian ini untuk berita bencana angin topan, banjir, erupsi, gempa, karhutla, kekeringan, longsor, dan tsunami adalah 0,731, 0,767, 0,760, 0,761, 0,749, 0,680, 0,763, dan 0,600. Sedangkan Nilai F1 untuk hasil ekstraksi lokasi dan waktu adalah 0,795 dan 0,881.
|