Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-2076 (Softcopy SK-1558) Source code SK-786
Collection Type Skripsi
Title Detection and Validation of Common-Sense from Textual Data
Author Kerenza Doxolodeo;
Publisher Depok: Fakultas Ilmu Komputer UI, 2020
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-2076 (Softcopy SK-1558) Source code SK-786 TERSEDIA
Tidak ada review pada koleksi ini: 51220
ABSTRAK vii Nama : Kerenza Doxolodeo Program Studi : Ilmu Komputer Judul : Deteksi dan Validasi Nalar Wajar dari Data Teks Pemahaman nalar wajar adalah permasalahan terbuka di mana model melakukan se- buah tugas yang membutuhkan akses ke pengetahuan umum yang implisit. Skripsi ini terbagi menjadi tiga bagian : mencari kalimat yang tidak masuk akal, memilih penjelasan terbaik mengapa sebuah kalimat tidak masuk akal, dan menjelaskan kenapa sebuah kalimat tidak masuk akal. Selain itu, penulis juga berkesperi- men dengan versi Bahasa Indonesia. Dataset Bahasa Indonesia dibentuk dengan penerjemahan mesin serta anotasi manusia. Di bagian pertama, penulis menguji model baseline seperti SVM dan Logisitc Regression serta model-model Trans- former.Penulis juga mencoba metode ekstraksi fitur seperti SPO(+AQ) dan aug- mentasi data yang memanfaatkan Wikipedia Indonesia dan ConceptNet. Penulis mendapatkan akurasi tertinggi dengan model BERT (86.1% di Bahasa Inggris dan 66% di Bahasa Indonesia.) Semua metode ekstraksi mengakibatkan akurasi jatuh secara signifikan dan tidak ada kenaikan akurasi yang berati untuk metode aug- mentasi. Untuk bagian kedua, selain menggunakan LSTM sebagai baseline dan Transformer sebagai pembanding, penulis juga mengobservasi sifat yang berten- tangan antara kalimat yang tidak masuk akal dan penjelasannya. Model BERT kembali mendapatkan akurasi tertinggi untuk kedua bahasa (85% di Bahasa In- donesia dan 71% di Bahasa Inggris.) Model entailment mendapatkan akurasi yang kompetitif dengan model LSTM. Untuk bagian ketiga, penulis membentuk sistem yang terdiri dari tiga bagian : bagian yang menghasilkan penjelasan secara parsial, bagian yang melengkapi penjelasan, dan bagian yang memilih penjelasan terbaik. Pasangan RoBERTa / MNLI mendapatkan performa yang terbaik untuk Bahasa Ing- gris (BLEU 0.0830). Sistem tersebut gagal untuk menghasilkan penjelasan yang memuaskan dalam Bahasa Indonesia.