Pembangunan sistem pengurai kalimat bahasa Indonesia secara simbolik (symbolic parser) yang membutuhkan tenaga dan biaya yang tidak murah, serta adanya ambiguitas terhadap struktur kalimat yang dihasilkannya, melatarbelakangi pembangunan sistem pengurai kalimat bahasa Indonesia dengan pendekatan probabilistic parsing. Sistem ini menguraikan struktur kalimat bahasa Indonesia dengan menggunakan nilai probabilitas aturan pada probabilistic context free grammar (PCFG). PCFG diperoleh dari proses induksi grammar terhadap parse tree kalimat (data pelatihan), yang berasal dari symbolic parser yang telah dibangun pada penelitian sebelumnya. Penghitungan nilai probabilitas aturan pada PCFG, dilakukan dengan dua cara, yakni memanfaatkan frekuensi kemunculan aturan pada data pelatihan (disebut PCFG treebank grammar), serta dengan menghitung kembali (reestimation) nilai probabilitas aturan dengan algoritma inside outside (disebut PCFG inferred grammar). Untuk menguji sistem, digunakan dua metrik, yakni pengujian secara tepat (identity matching) dan pengujian berdasarkan string similarity. Metrik pengujian pertama membandingkan apakah struktur kalimat yang dihasilkan oleh sistem tepat sama dengan parse tree yang dihasilkan oleh symbolic parser, sedangkan pada metrik pengujian yang kedua, parse tree yang dihasilkan secara probabilistic maupun symbolic dianggap sebagai string, dan selanjutnya dihitung nilai similarity (kemiripan) antara keduanya. Berdasarkan pengujian yang dilakukan, sistem pengurai kalimat bahasa Indonesia dengan pendekatan probabilistic parsing belum memberikan hasil yang optimal. Selain itu, PCFG treebank grammar (PTG) ternyata memberikan hasil yang lebih baik daripada PCFG inferred grammar (PIG), di mana, PTG berhasil menguraikan 98 % kalimat pengujian dan jumlah kalimat yang hasil penguraiannya tepat sama dengan hasil penguraian symbolic parser sebesar 14.15%. Varian PIG yang terbaik hanya dapat menguraikan 66.31 % kalimat pengujian, di mana, hanya 8.6 % di antaranya memiliki struktur yang tepat sama dengan hasil symbolic parser. x + 147 hlm; 5 lamp; 46 gbr; 24 tbl; Bibliografi : 1997 - 2006