ABSTRAK Nama : Hapnes Toba Program Studi : Doktor Ilmu Komputer Judul : Pemodelan Frasa Pengandung Jawaban (ABP-LG) Untuk Sistem Tanya Jawab Sebuah sistem tanya jawab (STJ) adalah sebuah sistem komputer yang dirancang untuk mencari jawaban yang paling tepat terhadap sebuah pertanyaan yang diajukan dalam sebuah bahasa alami. Penelitian terkait STJ telah dilakukan sejak awal tahun 60-an, dan mengalami perkembangan yang pesat sejak diadakannya forum-forum evaluasi STJ sejak tahun 90-an sampai saat ini. Bidang-bidang penelitian dalam ilmu komputer yang memberikan kontribusi besar dalam perkembangan STJ meliputi antara lain: temu balik informasi, pemrosesan bahasa alami, dan kecerdasan buatan. Secara khusus dalam riset doktoral ini dilakukan eksplorasi terhadap komponen validasi jawaban. Riset bertujuan untuk menghasilkan metode baru yang dapat meningkatkan relevansi cuplikan teks dan mencari strategi untuk melakukan ekstraksi jawaban dengan mengkombinasikan pendekatan statist ik dan simbolik. Terdapat dua usulan yang diberikan guna mencapai tujuan riset. Usul yang pertama adalah penggunaan model kualitas jawaban yang dikembangkan dari STJ berbasis komunitas sebagai alat untuk melakukan pengurutan ulang cuplikan teks. Usul yang kedua adalah pembentukan model jawaban melalui pembelajaran frasa pengandung jawaban terkecil dan terlengkap (least generalized answer bearing phrase/ABP-LG) sebagai sarana untuk memprediksi bagian kalimat yang paling memungkinkan mengandung jawaban. Model ABPLG memanfaatkan informasi struktur kalimat pada pertanyaan dan cuplikan teks sebagai indikator yang menentukan peluang kandungan jawaban dalam sebuah bagian kalimat. Hasil eksperimen dengan berbagai koleksi data memperlihatkan bahwa kombinasi model ABP-LG dengan sistem berbasis pola mampu memberikan kontribusi untuk perbaikan hasil ekstraksi jawaban secara signifikan untuk tipe pertanyaan faktoid maupun kompleks (tipe lain-lain). Keunggulan model ABP-LG jika dibandingkan dengan STJ berbasis entitas bernama ataupun kamus adalah kemampuannya untuk mempelajari indikasi 'cara menjawab' dan portabilitasnya untuk diterapkan dalam domain pertanyaan yang berbeda-beda, khususnya untuk tipe-tipe pertanyaan yang dapat mencakup konteks apapun, seperti dalam tipe 'other' (lain-lain). Kelemahan model ABP-LG yang teramati selama eksperimen adalah ketergantungannya pada kualitas teks. Problem terakhir ini secara parsial berhasil ditangani oleh model pengurutan ulang cuplikan teks sebagai penyaring kandidat-kandidat kalimat yang dianggap mengandung jawaban dari hasil temu balik informasi.