Perpustakaan Fakultas Ilmu Komputer

Call Number	T-1257 (Softcopy T-965) Source code T-324 Mak T-61
Collection Type	Tesis
Title	Pengenalan kata bahasa indonesia dengan data multimodal secara end-to-end
Author	Rifqi Adiwidjaja;
Publisher	Depok: Fasilkom UI, 2020
Subject
Location	FASILKOM-UI;

Lokasi : Perpustakaan Fakultas Ilmu Komputer

Nomor Panggil	ID Koleksi	Status
T-1257 (Softcopy T-965) Source code T-324 Mak T-61		TERSEDIA

T-1257 Rifqi Adiwidjaja 1706095573.pdf

Tidak ada review pada koleksi ini: 48030

ABSTRAK

ABSTRAK Nama : Rifqi Adiwidjaja Program Studi : Ilmu Komputer Judul : Pengenalan Kata Bahasa Indonesia Dengan Data Multimodal Secara End-to-End Pembimbing : M. Ivan Fanany, S.Si., M.Kom., Ph.D. Automatic Speec Recognition ASR adalah penggunaan metodologi dan teknologi untuk mengenali dan menerjemahkan ucapan menjadi teks oleh komputer. Umumnya ASR menggunakan salah satu modalitas suara atau visual dan menggunakan 3 model secara bersamaan untuk membuat sebuah sistem. Penelitian ini diarahkan untuk sistem ASR bahasa indonesia dan menggunakan satu model yang disebut sebagai pendekatan end-to-end. Penelitian ASR untuk bahasa indonesia masih sedikit, terutama untuk yang menggunakan pendekatan end-to-end, dan selain itu penulis juga tidak menemukan penelitian ASR bahasa yang telah dilakukan. Penelitian ini mengusulkan penggunaan data multimodal yakni modalitas visual dan modalitas suara dan menggabungkan kedua fitur dari masing-masing modalitas dengan feature fusion untuk melakukan ASR. Pada penelitian ini juga dilakukan dengan pendekatan end-to-end yang merupakan pendekatan deep learning. Secara spesifik pada penelitian ini digunakan arsitektur yang terdiri dari Convolutional Neural Network (CNN), Gated Recurrent Unit (GRU) dan Squeeze And Excitation Networks (SE-Net) untuk memodelkan kata atau kalimat yang ingin dipelajari, dan Connectionist Temporal Connection (CTC) loss function untuk membuat modelnya dapat dilatih secara end-to-end. Eksperimen dilakukan pada dataset AVID, yakni dataset multimodal berbahasa indonesia. Arsitektur yang kami ajukan mencapai hasil terbaik untuk dataset AVID. Kata kunci: Speech Recognition, End-to-End, Data Multimodal, Deep Learning, Bahasa Indonesia vii