Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1813 (Soft Copy SK-1295) Source Code SK-718)
Collection Type Skripsi
Title Visual Question Answering (VQA) untuk Objek Pariwisata Monas Menggunakan Deep Learning
Author Ahmad Hasan Siregar;
Publisher Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1813 (Soft Copy SK-1295) Source Code SK-718) TERSEDIA
Tidak ada review pada koleksi ini: 48358
ABSTRAK Nama : Ahmad Hasan Siregar Program Studi : Ilmu Komputer Judul : Visual Question Answering (VQA) untuk Objek Pariwisata Monas Menggunakan Deep Learning Visual Question Answering (VQA) adalah sebuah tugas pembelajaran mesin di mana diberikan pasangan gambar dan pertanyaan visual dalam bahasa natural, mesin harus memprediksi jawaban yang tepat. Kesulitan dari tugas VQA adalah masukan melibatkan dua media informasi (modality), yaitu gambar dan teks. VQA masih merupakan bidang penelitian yang aktif yang setiap tahunnya berbagai peneliti mempublikasikan model VQA, sebuah respons terhadap VQA challenge, dengan akurasi state-of-the-art tahun 2016 di 66.47% dan akurasi state-of-ther-art terakhir tahun 2019 masih di 75.23%. Diketahui bahwa tidak ada data VQA yang tersedia dalam bahasa Indonesia, data VQA Monas disusun dalam bahasa tersebut dengan fokus Monas sebagai konteksnya yang merupakan objek pariwisata di Jakarta. Metode pembelajaran mesin multimodal diajukan menggunakan CNN sebagai image embedding dan beberapa teknik di bidang linguistik sebagai sentence embedding, yaitu Bag-of-Words, fastText, BERT, dan [Bi-]LSTM. Akurasi sebesar 68.39% dicapai pada model dengan performa terbaik. Studi ablasi juga dilaporkan untuk menganalisis pengaruh dari sebuah lapisan individu terhadap akurasi model secara keseluruhan. Kata kunci: Visual Question Answering (VQA), pembelajaran mesin multimodal, CNN, fastText, BERT, LSTM.