Call Number | T-1257 (Softcopy T-965) Source code T-324 Mak T-61 |
Collection Type | Tesis |
Title | Pengenalan kata bahasa indonesia dengan data multimodal secara end-to-end |
Author | Rifqi Adiwidjaja; |
Publisher | Depok: Fasilkom UI, 2020 |
Subject | |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
T-1257 (Softcopy T-965) Source code T-324 Mak T-61 | TERSEDIA |
ABSTRAK Nama : Rifqi Adiwidjaja Program Studi : Ilmu Komputer Judul : Pengenalan Kata Bahasa Indonesia Dengan Data Multimodal Secara End-to-End Pembimbing : M. Ivan Fanany, S.Si., M.Kom., Ph.D. Automatic Speec Recognition ASR adalah penggunaan metodologi dan teknologi untuk mengenali dan menerjemahkan ucapan menjadi teks oleh komputer. Umumnya ASR menggunakan salah satu modalitas suara atau visual dan menggunakan 3 model secara bersamaan untuk membuat sebuah sistem. Penelitian ini diarahkan untuk sistem ASR bahasa indonesia dan menggunakan satu model yang disebut sebagai pendekatan end-to-end. Penelitian ASR untuk bahasa indonesia masih sedikit, terutama untuk yang menggunakan pendekatan end-to-end, dan selain itu penulis juga tidak menemukan penelitian ASR bahasa yang telah dilakukan. Penelitian ini mengusulkan penggunaan data multimodal yakni modalitas visual dan modalitas suara dan menggabungkan kedua fitur dari masing-masing modalitas dengan feature fusion untuk melakukan ASR. Pada penelitian ini juga dilakukan dengan pendekatan end-to-end yang merupakan pendekatan deep learning. Secara spesifik pada penelitian ini digunakan arsitektur yang terdiri dari Convolutional Neural Network (CNN), Gated Recurrent Unit (GRU) dan Squeeze And Excitation Networks (SE-Net) untuk memodelkan kata atau kalimat yang ingin dipelajari, dan Connectionist Temporal Connection (CTC) loss function untuk membuat modelnya dapat dilatih secara end-to-end. Eksperimen dilakukan pada dataset AVID, yakni dataset multimodal berbahasa indonesia. Arsitektur yang kami ajukan mencapai hasil terbaik untuk dataset AVID. Kata kunci: Speech Recognition, End-to-End, Data Multimodal, Deep Learning, Bahasa Indonesia vii