ABSTRAK
vii
Nama : Kerenza Doxolodeo
Program Studi : Ilmu Komputer
Judul : Deteksi dan Validasi Nalar Wajar dari Data Teks
Pemahaman nalar wajar adalah permasalahan terbuka di mana model melakukan se-
buah tugas yang membutuhkan akses ke pengetahuan umum yang implisit. Skripsi
ini terbagi menjadi tiga bagian : mencari kalimat yang tidak masuk akal, memilih
penjelasan terbaik mengapa sebuah kalimat tidak masuk akal, dan menjelaskan
kenapa sebuah kalimat tidak masuk akal. Selain itu, penulis juga berkesperi-
men dengan versi Bahasa Indonesia. Dataset Bahasa Indonesia dibentuk dengan
penerjemahan mesin serta anotasi manusia. Di bagian pertama, penulis menguji
model baseline seperti SVM dan Logisitc Regression serta model-model Trans-
former.Penulis juga mencoba metode ekstraksi fitur seperti SPO(+AQ) dan aug-
mentasi data yang memanfaatkan Wikipedia Indonesia dan ConceptNet. Penulis
mendapatkan akurasi tertinggi dengan model BERT (86.1% di Bahasa Inggris dan
66% di Bahasa Indonesia.) Semua metode ekstraksi mengakibatkan akurasi jatuh
secara signifikan dan tidak ada kenaikan akurasi yang berati untuk metode aug-
mentasi. Untuk bagian kedua, selain menggunakan LSTM sebagai baseline dan
Transformer sebagai pembanding, penulis juga mengobservasi sifat yang berten-
tangan antara kalimat yang tidak masuk akal dan penjelasannya. Model BERT
kembali mendapatkan akurasi tertinggi untuk kedua bahasa (85% di Bahasa In-
donesia dan 71% di Bahasa Inggris.) Model entailment mendapatkan akurasi yang
kompetitif dengan model LSTM. Untuk bagian ketiga, penulis membentuk sistem
yang terdiri dari tiga bagian : bagian yang menghasilkan penjelasan secara parsial,
bagian yang melengkapi penjelasan, dan bagian yang memilih penjelasan terbaik.
Pasangan RoBERTa / MNLI mendapatkan performa yang terbaik untuk Bahasa Ing-
gris (BLEU 0.0830). Sistem tersebut gagal untuk menghasilkan penjelasan yang
memuaskan dalam Bahasa Indonesia.
|
|