ABSTRAK
ABSTRAK
Nama : Rifqi Adiwidjaja
Program Studi : Ilmu Komputer
Judul : Pengenalan Kata Bahasa Indonesia Dengan Data Multimodal
Secara End-to-End
Pembimbing : M. Ivan Fanany, S.Si., M.Kom., Ph.D.
Automatic Speec Recognition ASR adalah penggunaan metodologi dan teknologi
untuk mengenali dan menerjemahkan ucapan menjadi teks oleh komputer. Umumnya
ASR menggunakan salah satu modalitas suara atau visual dan menggunakan 3
model secara bersamaan untuk membuat sebuah sistem. Penelitian ini diarahkan untuk
sistem ASR bahasa indonesia dan menggunakan satu model yang disebut sebagai
pendekatan end-to-end. Penelitian ASR untuk bahasa indonesia masih sedikit,
terutama untuk yang menggunakan pendekatan end-to-end, dan selain itu penulis
juga tidak menemukan penelitian ASR bahasa yang telah dilakukan. Penelitian
ini mengusulkan penggunaan data multimodal yakni modalitas visual dan modalitas
suara dan menggabungkan kedua fitur dari masing-masing modalitas dengan
feature fusion untuk melakukan ASR. Pada penelitian ini juga dilakukan dengan
pendekatan end-to-end yang merupakan pendekatan deep learning. Secara spesifik
pada penelitian ini digunakan arsitektur yang terdiri dari Convolutional Neural Network
(CNN), Gated Recurrent Unit (GRU) dan Squeeze And Excitation Networks
(SE-Net) untuk memodelkan kata atau kalimat yang ingin dipelajari, dan Connectionist
Temporal Connection (CTC) loss function untuk membuat modelnya dapat
dilatih secara end-to-end. Eksperimen dilakukan pada dataset AVID, yakni dataset
multimodal berbahasa indonesia. Arsitektur yang kami ajukan mencapai hasil terbaik
untuk dataset AVID.
Kata kunci:
Speech Recognition, End-to-End, Data Multimodal, Deep Learning, Bahasa Indonesia
vii
|