Meningkatnya kebutuhan informasi yang berasal dari data suara menyebabkan diperlukannya sistem yang dapat mengekstraksi data suara untuk mendapatkan informasi yang dibutuhkan. Proses ekstraksi informasi data suara tidak semudah seperti ekstraksi data teks. Oleh sebab itu, diperlukan suatu teknologi yang dapat mengubah data suara menjadi data teks. Teknologi tersebut dinamakan teknologi pengenalan suara (speech recognition). Sphinx-4 merupakan salah satu sistem pengenal suara terbaik yang berhasil diciptakan. Sphinx-4 telah berhasil mengenali berbagai bahasa di dunia seperti Bahasa Inggris, Arab, India dan Estonia. Penelitian pengenalan suara untuk Bahasa Indonesia masih sangat minim. Penelitian ini dilakukan untuk membangun sistem pengenal suara untuk Bahasa Indonesia menggunakan Sphinx-4. Hal yang menjadi bahan penelitian adalah meneliti komponen-komponen sistem pengenal suara yaitu model bahasa, model akustik, kamus fonetik, dan konfigurasi Sphinx-4. Penelitian ini menggunakan korpus suara yang direkam melalui telepon dan siaran berita dari radio. Penelitian dilakukan dengan membandingkan kamus fonetik antara kamus fonetik yang digunakan pada penelitian [Zahra,2008] dan kamus fonetik yang digunakan pada penelitian [Lestari,2006]. Selain itu, penelitian juga membandingkan dua macam algoritma smoothing pada model bahasa yaitu Good-Turing Discounting dan Witten-Bell Discounting, membandingkan model bahasa bigram dengan trigram, dan membandingkan sumber korpus teks yang berbeda. Untuk konfigurasi Sphinx-4, hal yang diteliti yaitu absolute beam width dan word insertion probability. Berdasarkan hasil eksperimen, diperoleh berbagai hasil yaitu kamus fonetik dari penelitian [Zahra, 2008] menghasilkan akurasi lebih tinggi daripada kamus fonetik pada penelitian [Lestari,2006]. Model bahasa menggunakan algoritma Witten-Bell lebih baik daripada model bahasa yang menggunakan algoritma Good-Turing Discounting. Model bahasa bigram lebih baik daripada model bahasa trigram pada pengujian menggunakan data rekaman telepon sedangkan model bahasa trigram lebih baik dari model bahasa bigram pada pengujian menggunakan data rekaman radio. Sumber korpus teks memiliki hubungan dengan ruang lingkup pengujian. Model bahasa menggunakan sumber korpus dari transkripsi rekaman telepon menghasilkan tingkat akurasi yang lebih tinggi untuk data uji berasal dari data suara rekaman telepon, tetapi akan menghasilkan akurasi yang rendah untuk data uji berasal dari data rekaman radio. Dalam hubungannya dengan konfigurasi Sphinx-4, semakin tinggi nilai absolute beam width dan word insertion probability, semakin tinggi akurasi yang didapatkan dan sebaliknya.