Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number T-0804 (Softcopy T-0459) Source Code T-0074
Collection Type Tesis
Title Segmentasi dokumen teks berbahasa Indonesia menggunakan metode text tiling
Author Edison Pardengganan Siahaan;
Publisher Depok: Pascasarjana Ilmu Komputer UI, 2009
Subject Segementasi TEks, Metode Text Tiling; Automatic Speech Recognation
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
T-0804 (Softcopy T-0459) Source Code T-0074 TERSEDIA
Tidak ada review pada koleksi ini: 27279
Penelitian yang dilakukan pada tesis ini dimotivasi oleh adanya kebutuhan untuk dapat melakukan pengelolaan informasi pada dokumen suara khususnya berita berbahasa Indonesia. Informasi pada dokumen suara berita berbahasa Indonesia dapat diubah menjadi informasi berbentuk dokumen teks, dengan menggunakan perngakt lunak AUtomatic Speech Recognation (ASR). Pada penelitian ini perangkat ASR yang digunakan adalah perangkat ASR Sphinx4. Penggunaan perngakt sphinx 4 ini didasari telah dilakukkanny penelitian tentang trnaskripsi dokumen suara berbahasa Inodnesia menggunakan perngkat ini. Hasil keluaran dari ASR berupa dokumen teks yang tidak memiliki batasan akhir dan tidak tersegmentasi secara jelas, tentu menulitkan dalam pengolahan data teks tersebut. Dalam kerangka itu, maka penelitian yang dilakukan pada tesis ini ditujukan untuk mengetahui metode yang efektif dalam melakukan segementasi hasi transkripsi berita suara berbahasa INdonesia. Metode yang akan diuji pada penelitian iniadalah metode Text Tiling berbaiss perbandingan blok dengan pembobotan TF-IDF-Mutual Information, TF-IDF-Mutual Information-Word Similarity, TF-IDF-Word Frequency , TF-IDF, Latent Semantic Analysis dan metode TextTiling berbasis Vocabulary Introduction. Segmentasi dilakukan untuk berita teks dan dokumen teks hasil transkripsi berita suara yng tleh dikatagorikan menjadi 5 topik yaitu topik politik, sosial budaya, ekonomi, hukum dan olah raga. Hasil pengujian terhadap masing-masing teknik pembobotan menunjukan bahwa metode segementasi Text Tiling dengan Teknik pembobotan TF-IDF-Word Frequency merupakan metode segementasi yang paling baik untuk dipakai dalam melakukan segementasi hasil transkripsi dari perangkat pengenal suara (Automatic-Speech Recognation). Pada penelitian ini telah dibuktikan bahwa teknik pembobotan TF-IDF-Word Frequency memiliki ketepatan segmentasi lebih tinggi baik pada dokumen teks hasil transkripsi (81,4%( ataupun pada dokumen berita teks (73,3%(. Metode segmentasi yang dilakukan pada penelitian ini dapat terus dikembangkan menggunakan teknik-teknik lain dalam menunjang proses segmentasi hasil trnaskripsi berita berbahasa Indonesia, seperti memprgunakan metode0metode optimalisasi dalam memperoleh urutan batas segmen yang optimal