Tidak ada review pada koleksi ini: 44973
ABSTRAK
Nama : Muhammad Rizki Aulia Rahman Maulana
Program Studi : Ilmu Komputer
Judul : Sistem Pembacaan Bibir Otomatis End-to-End dan
Sequence-to-Sequence dengan Spatiotemporal CNN dan
Gated RNN
Lip reading, atau lebih formal dikenal dengan visual speech recognition/decoding
adalah teknik untuk memahami perkataan dengan melakukan interpretasi gerakan
mulut. Otomasi lip reading memiliki banyak aplikasi praktis seperti dalam membantu
orang-orang dengan keterbatasan pendengaran/lisan, meningkatkan performa
pengenalan wicara, transkripsi video tanpa audio, dan aplikasi-aplikasi terkait
keamanan. Pada penelitian ini dilakukan penelaahan dan pengembangan model
lip reading sequence-to-sequence yang mendukung pelatihan end-to-end dengan
menggunakan pendekatan deep learning. Secara spesifik penulis memanfaatkan
Spatiotemporal Convolution Neural Network sebagai detektor fitur spatiotemporal,
Bidirectional Gated Recurrent Unit untuk melakukan encoding informasi yang
mencakup keseluruhan sequence, dan Connectionist Temporal Classification untuk
melakukan pemelajaran alignment frame dan karakter pada suatu tugas pelabelan
framewise. Kompleksitas model dan dataset yang besar pada problem lip reading
mengakibatkan kebutuhan penggunaan perangkat keras dan strategi pelatihan yang
khusus. Pelatihan model melibatkan penggunaan dua GPU NVIDIA GTX Titan X
pada dua komputer yang berbeda dan multiprocessing untuk menjamin bahwa kapasitas
model mampu direpresentasikan oleh mesin dan pelatihan tidak terbentur
bottleneck pada IO dan CPU. Pada dataset GRID, model yang diusulkan berhasil
mencapai akurasi karakter, kata, dan BLEU score yang baik, yakni berturut-turut
sebesar 98:5%, 96:7%, dan 96:9% pada tugas prediksi kalimat dengan pembicara
yang overlap. Pada split pembicara independen yang lebih sulit, model mencapai
akurasi karakter, kata, dan BLEU score berturut-turut 93:9%, 85:9%, dan 88:2%.
Selain itu, model juga berhasil mempelajari phoneme dan viseme dengan cukup
baik, meski dalam beberapa kasus model masih mengalami kesulitan dalam membedakan
beberapa phoneme dalam sebagian cluster viseme yang memiliki artikulasi
dan bentuk yang identik. Dari segi kontribusi, terdapat beberapa kontribusi yang
dibuat dalam penelitian ini. Kontribusi utama dalam penelitian ini adalah model
lip reading dengan dukungan pelatihan end-to-end yang memiliki performa setara
model state-of-the-art, meskipun memiliki parameter yang jauh lebih rendah.
Beberapa kontribusi lain adalah investigasi penggunaan curriculum learning pada
model lip reading dengan parameter rendah dan implementasi data loader dengan
dukungan paralelisasi dan curriculum learning.
Kata Kunci:
lip reading, deep learning, sequence-to-sequence, end-to-end
vii