ABSTRAK
Nama : Ahmad Hasan Siregar
Program Studi : Ilmu Komputer
Judul : Visual Question Answering (VQA) untuk Objek
Pariwisata Monas Menggunakan Deep Learning
Visual Question Answering (VQA) adalah sebuah tugas pembelajaran mesin di mana
diberikan pasangan gambar dan pertanyaan visual dalam bahasa natural, mesin harus
memprediksi jawaban yang tepat. Kesulitan dari tugas VQA adalah masukan melibatkan
dua media informasi (modality), yaitu gambar dan teks. VQA masih merupakan bidang
penelitian yang aktif yang setiap tahunnya berbagai peneliti mempublikasikan model
VQA, sebuah respons terhadap VQA challenge, dengan akurasi state-of-the-art tahun
2016 di 66.47% dan akurasi state-of-ther-art terakhir tahun 2019 masih di 75.23%.
Diketahui bahwa tidak ada data VQA yang tersedia dalam bahasa Indonesia, data VQA
Monas disusun dalam bahasa tersebut dengan fokus Monas sebagai konteksnya yang
merupakan objek pariwisata di Jakarta. Metode pembelajaran mesin multimodal diajukan
menggunakan CNN sebagai image embedding dan beberapa teknik di bidang linguistik
sebagai sentence embedding, yaitu Bag-of-Words, fastText, BERT, dan [Bi-]LSTM.
Akurasi sebesar 68.39% dicapai pada model dengan performa terbaik. Studi ablasi juga
dilaporkan untuk menganalisis pengaruh dari sebuah lapisan individu terhadap akurasi
model secara keseluruhan.
Kata kunci: Visual Question Answering (VQA), pembelajaran mesin multimodal, CNN,
fastText, BERT, LSTM.
|
|