ABSTRAK
Padatnya aktivitas lalu lintas yang terjadi setiap harinya menimbulkan gangguan yang
dapat mengganggu proses pelaksanaan kegiatan berlalu lintas. Pemerintah Provinsi DKI
Jakarta telah mengembangkan sistem pemantauan guna memantau situasi lalu lintas
dalam mendukung kegiatan berlalu lintas dan mengurangi ganguan situasi lalu lintas.
Walaupun terdapat beberapa sistem pemantauan lalu lintas, namun Informasi yang
diterima oleh pengguna atau penyelenggara lalu lintas masih tidak lengkap / kurang
lengkap. Penelitian ini berfokus memanfaatkan data media sosial Twitter untuk
digunakan terkait pemantauan lalu lintas dan kondisi jalan. Pendekatan text mining
digunakan untuk mengekstraksi informasi dari data media sosial. Jenis analisa yang
digunakan pada penelitian ini adalah klasikasi untuk penyaringan data relevan dan
klasifikasi untuk mengkategorikan data relevan, ekstraksi informasi lokasi untuk
ekstraksi informasi lokasi dan geocoding untuk mengkonversi informasi lokasi menjadi
informasi geografis. Algoritma klasifikasi yang digunakan pada penelitian ini adalah
Naïve Bayes, Random Forest, Logistic Regression dan Support Vector Machine.
Metode ekstraksi fitur yang digunakan pada penelitian ini adalah Bag Of Words (BOW)
dan Term Frequency - Inverse Document Frequency (TF-IDF). Metode ekstraksi
informasi lokasi yang digunakan pada penelitian ini adalah Named Entity Recognition
(NER) dan Part Of Speech Tagger. Metode geocoding yang digunakan memanfaatkan
library ArcPy. Hasil evaluasi menunjukkan model klasifikasi terbaik untuk menyaring
data relevan dihasilkan dengan menggunakan algoritma Logistic Regression dan
gabungan tiga fitur ektraksi BOW Unigram dan TF-IDF Word Trigram dan N-Gram
Char dengan nilai F1-score 93%. Model klasifikasi untuk mengkategorikan data
relevan dihasilkan dengan menggunakan algoritma Logistic Regression dan gabungan
dua fitur ektraksi BOW Unigram dan TF-IDF N-Gram Char dengan nilai F1-score
96%. Metode ekstraksi informasi lokasi terbaik dihasilkan dengan menggunakan
metode Standford NER dengan nilai F1-score sebesar 48% dan presisi sebesar 84%.
Tingkat keberhasilkan tahapan geocoding untuk hasil ekstraksi informasi lokasi
menggunakan metode NER adalah sebesar 59%. Disamping itu, dilakukan juga
visualisasi sederhana berbasis web untuk menampilkan informasi data yang telah diolah
dalam bentuk spasial.
|