Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number T-1257 (Softcopy T-965) Source code T-324 Mak T-61
Collection Type Tesis
Title Pengenalan kata bahasa indonesia dengan data multimodal secara end-to-end
Author Rifqi Adiwidjaja;
Publisher Depok: Fasilkom UI, 2020
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
T-1257 (Softcopy T-965) Source code T-324 Mak T-61 TERSEDIA
Tidak ada review pada koleksi ini: 48030
ABSTRAK

ABSTRAK Nama : Rifqi Adiwidjaja Program Studi : Ilmu Komputer Judul : Pengenalan Kata Bahasa Indonesia Dengan Data Multimodal Secara End-to-End Pembimbing : M. Ivan Fanany, S.Si., M.Kom., Ph.D. Automatic Speec Recognition ASR adalah penggunaan metodologi dan teknologi untuk mengenali dan menerjemahkan ucapan menjadi teks oleh komputer. Umumnya ASR menggunakan salah satu modalitas suara atau visual dan menggunakan 3 model secara bersamaan untuk membuat sebuah sistem. Penelitian ini diarahkan untuk sistem ASR bahasa indonesia dan menggunakan satu model yang disebut sebagai pendekatan end-to-end. Penelitian ASR untuk bahasa indonesia masih sedikit, terutama untuk yang menggunakan pendekatan end-to-end, dan selain itu penulis juga tidak menemukan penelitian ASR bahasa yang telah dilakukan. Penelitian ini mengusulkan penggunaan data multimodal yakni modalitas visual dan modalitas suara dan menggabungkan kedua fitur dari masing-masing modalitas dengan feature fusion untuk melakukan ASR. Pada penelitian ini juga dilakukan dengan pendekatan end-to-end yang merupakan pendekatan deep learning. Secara spesifik pada penelitian ini digunakan arsitektur yang terdiri dari Convolutional Neural Network (CNN), Gated Recurrent Unit (GRU) dan Squeeze And Excitation Networks (SE-Net) untuk memodelkan kata atau kalimat yang ingin dipelajari, dan Connectionist Temporal Connection (CTC) loss function untuk membuat modelnya dapat dilatih secara end-to-end. Eksperimen dilakukan pada dataset AVID, yakni dataset multimodal berbahasa indonesia. Arsitektur yang kami ajukan mencapai hasil terbaik untuk dataset AVID. Kata kunci: Speech Recognition, End-to-End, Data Multimodal, Deep Learning, Bahasa Indonesia vii