ABSTRAK
Nama : Ken Nabila Setya
Program Studi : Ilmu Komputer
Judul : Pengembangan Korpus Textual Entailment Bahasa
Indonesia Menggunakan Data Wikipedia Revision History
dengan Metode Co-training
Textual Entailment adalah penelitian di bidang NLP yang bertujuan untuk mengidentifikasikan
apakah terdapat hubungan entailment di antara dua buah teks.
Penelitian Textual Entailment sudah dikembangkan dalam berbagai bahasa, namun
Textual Entailment untuk Bahasa Indonesia masih sangat minim. Penelitian ini
ditujukan untuk mengembangkan korpus Textual Entailment Bahasa Indonesia
secara otomatis menggunakan metode Co-training, sebuah metode semi-supervised
learning yang pernah digunakan pada pengembangan korpus Textual Entailment
Bahasa Inggris. Sumber data yang digunakan untuk Co-training adalah Wikipedia
revision history. Pada akhir penelitian, terdapat sejumlah 1857 data korpus yang
dihasilkan secara otomatis dengan akurasi data sebesar adalah 76%. Hasil tersebut
menunjukkan bahwa kombinasi metode Co-training dan data Wikipedia revision
history berpotensi menghasilkan korpus Textual Entailment yang berukuran besar
dan baik.
Kata Kunci:
Textual Entailment, Co-training, Wikipedia revision history, korpus, Bahasa
Indonesia
|
|