ABSTRAK

Padatnya aktivitas lalu lintas yang terjadi setiap harinya menimbulkan gangguan yang dapat mengganggu proses pelaksanaan kegiatan berlalu lintas. Pemerintah Provinsi DKI Jakarta telah mengembangkan sistem pemantauan guna memantau situasi lalu lintas dalam mendukung kegiatan berlalu lintas dan mengurangi ganguan situasi lalu lintas. Walaupun terdapat beberapa sistem pemantauan lalu lintas, namun Informasi yang diterima oleh pengguna atau penyelenggara lalu lintas masih tidak lengkap / kurang lengkap. Penelitian ini berfokus memanfaatkan data media sosial Twitter untuk digunakan terkait pemantauan lalu lintas dan kondisi jalan. Pendekatan text mining digunakan untuk mengekstraksi informasi dari data media sosial. Jenis analisa yang digunakan pada penelitian ini adalah klasikasi untuk penyaringan data relevan dan klasifikasi untuk mengkategorikan data relevan, ekstraksi informasi lokasi untuk ekstraksi informasi lokasi dan geocoding untuk mengkonversi informasi lokasi menjadi informasi geografis. Algoritma klasifikasi yang digunakan pada penelitian ini adalah Naïve Bayes, Random Forest, Logistic Regression dan Support Vector Machine. Metode ekstraksi fitur yang digunakan pada penelitian ini adalah Bag Of Words (BOW) dan Term Frequency - Inverse Document Frequency (TF-IDF). Metode ekstraksi informasi lokasi yang digunakan pada penelitian ini adalah Named Entity Recognition (NER) dan Part Of Speech Tagger. Metode geocoding yang digunakan memanfaatkan library ArcPy. Hasil evaluasi menunjukkan model klasifikasi terbaik untuk menyaring data relevan dihasilkan dengan menggunakan algoritma Logistic Regression dan gabungan tiga fitur ektraksi BOW Unigram dan TF-IDF Word Trigram dan N-Gram Char dengan nilai F1-score 93%. Model klasifikasi untuk mengkategorikan data relevan dihasilkan dengan menggunakan algoritma Logistic Regression dan gabungan dua fitur ektraksi BOW Unigram dan TF-IDF N-Gram Char dengan nilai F1-score 96%. Metode ekstraksi informasi lokasi terbaik dihasilkan dengan menggunakan metode Standford NER dengan nilai F1-score sebesar 48% dan presisi sebesar 84%. Tingkat keberhasilkan tahapan geocoding untuk hasil ekstraksi informasi lokasi menggunakan metode NER adalah sebesar 59%. Disamping itu, dilakukan juga visualisasi sederhana berbasis web untuk menampilkan informasi data yang telah diolah dalam bentuk spasial.