Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1546 (Softcopy SK-1028) Source Code SK-621
Collection Type Skripsi
Title Sistem Pembacaan Bibir Otomatis End-to-End dan Sequence-to-Sequence dengan Spatiotemporal CNN dan Gated RNN
Author Muhammad Rizki Aulia Rahman Maulana;
Publisher Depok: Fakultas Ilmu Komputer, 2017
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1546 (Softcopy SK-1028) Source Code SK-621 TERSEDIA
Tidak ada review pada koleksi ini: 44973
ABSTRAK Nama : Muhammad Rizki Aulia Rahman Maulana Program Studi : Ilmu Komputer Judul : Sistem Pembacaan Bibir Otomatis End-to-End dan Sequence-to-Sequence dengan Spatiotemporal CNN dan Gated RNN Lip reading, atau lebih formal dikenal dengan visual speech recognition/decoding adalah teknik untuk memahami perkataan dengan melakukan interpretasi gerakan mulut. Otomasi lip reading memiliki banyak aplikasi praktis seperti dalam membantu orang-orang dengan keterbatasan pendengaran/lisan, meningkatkan performa pengenalan wicara, transkripsi video tanpa audio, dan aplikasi-aplikasi terkait keamanan. Pada penelitian ini dilakukan penelaahan dan pengembangan model lip reading sequence-to-sequence yang mendukung pelatihan end-to-end dengan menggunakan pendekatan deep learning. Secara spesifik penulis memanfaatkan Spatiotemporal Convolution Neural Network sebagai detektor fitur spatiotemporal, Bidirectional Gated Recurrent Unit untuk melakukan encoding informasi yang mencakup keseluruhan sequence, dan Connectionist Temporal Classification untuk melakukan pemelajaran alignment frame dan karakter pada suatu tugas pelabelan framewise. Kompleksitas model dan dataset yang besar pada problem lip reading mengakibatkan kebutuhan penggunaan perangkat keras dan strategi pelatihan yang khusus. Pelatihan model melibatkan penggunaan dua GPU NVIDIA GTX Titan X pada dua komputer yang berbeda dan multiprocessing untuk menjamin bahwa kapasitas model mampu direpresentasikan oleh mesin dan pelatihan tidak terbentur bottleneck pada IO dan CPU. Pada dataset GRID, model yang diusulkan berhasil mencapai akurasi karakter, kata, dan BLEU score yang baik, yakni berturut-turut sebesar 98:5%, 96:7%, dan 96:9% pada tugas prediksi kalimat dengan pembicara yang overlap. Pada split pembicara independen yang lebih sulit, model mencapai akurasi karakter, kata, dan BLEU score berturut-turut 93:9%, 85:9%, dan 88:2%. Selain itu, model juga berhasil mempelajari phoneme dan viseme dengan cukup baik, meski dalam beberapa kasus model masih mengalami kesulitan dalam membedakan beberapa phoneme dalam sebagian cluster viseme yang memiliki artikulasi dan bentuk yang identik. Dari segi kontribusi, terdapat beberapa kontribusi yang dibuat dalam penelitian ini. Kontribusi utama dalam penelitian ini adalah model lip reading dengan dukungan pelatihan end-to-end yang memiliki performa setara model state-of-the-art, meskipun memiliki parameter yang jauh lebih rendah. Beberapa kontribusi lain adalah investigasi penggunaan curriculum learning pada model lip reading dengan parameter rendah dan implementasi data loader dengan dukungan paralelisasi dan curriculum learning. Kata Kunci: lip reading, deep learning, sequence-to-sequence, end-to-end vii