ABSTRAK
Nama : Machffud Tra Harana Vova
Program Studi : Ilmu Komputer
Judul : Klasifikasi Dokumen dan Ekstraksi Lokasi pada Berita
Bencana Alam dengan Pendekatan Neural Network dan
Pre-Trained Language Model
Pembimbing : Rahmad Mahendra, S.Kom., M.Sc.
Indonesia merupakan negara yang wilayahnya sering mengalami bencana alam. Salah
satu penanganan bencana alam adalah pengumpulan informasi berita bencana seperti
artikel atau koran, yang mana berguna untuk meningkatkan readability. Meskipun begitu, sekadar pengumpulan artikel saja cukup sulit karena identfikasinya dapat memakan
waktu serta makna yang termuat pada berita juga masih perlu diserap. Oleh karena itu
perlu dilakukan klasifikasi dokumen untuk memilih teks dokumen yang relevan dengan
bencana alam, kemudian dari teks dokumen yang relevan dilakukan ekstraksi informasi.
Penelitian mengenai klasifikasi teks bencana alam serta ekstraksi informasi yang sudah
dilakukan masih menggunakan pendekatan pemelajaran mesin tradisional serta belum
memanfaatkan pre-trained model berbasis bahasa Indonesia. Penggunaan pre-trained
model dan pendekatan deep learning sendiri sering memperoleh performa yang lebih
baik, sehingga ada kemungkinan performa yang dihasilkan dapat ditingkatkan. Dalam
penelitian ini dilakukan eksperimen menggunakan pre-trained word embedding seperti
Word2Vec dan fastText, pendekatan deep learning seperti BERT dan BiLSTM untuk
task klasifikasi. Hasil dengan pendekatan pemelajaran mesin tradisional dengan BoW
yang sudah direproduksi menjadi yang terbaik hampir secara keseluruhan, meskipun
jenis classifier yang digunakan adalah MLP yang mana sudah menerapkan deep learning
karena memiliki beberapa neuron. Kemudian pada penggunaan model pre-trained seperti
BERT, terdapat keterbatasan panjang masukan. Keterbatasan ini dapat ditangani dengan
membuat representasi dokumen menjadi lebih pendek menggunakan metode peringkasan
teks. Hasil representasi ringkasan dokumen dalam penelitian ini mampu meningkatkan
performa akurasi klasifikasi baik pada pendekatan pemelajaran mesin tradisional maupun
deep learning. Penelitian ini juga melakukan ekperimen penggunaan pre-trained model
yang sudah fine-tuned untuk task ekstraksi lokasi seperti NER dan dependency parsing
berbasis bahasa Indonesia, meskipun belum dihasilkan performa yang cukup baik.
Kata kunci:
Klasifikasi Teks Dokumen, Ekstraksi Informasi, Pre-Trained Model, Summarization,
NER, Dependency Parsing, Bencana Alam
|
|