Perpustakaan Fakultas Ilmu Komputer

Call Number	SK-2177 (Softcopy SK-1659)
Collection Type	Skripsi
Title	Gramatika: Dataset sintetik untuk grammatical error correction bahasa indonesia
Author	Michael Felix Haryono, Rico Tadjudin;
Publisher	Depok: Fakultas Ilmu Komputer UI, 2023
Subject
Location	FASILKOM-UI;

Lokasi : Perpustakaan Fakultas Ilmu Komputer

Nomor Panggil	ID Koleksi	Status
SK-2177 (Softcopy SK-1659)		TERSEDIA

SK-2177 (Softcopy SK-1659) Michael Felix Haryono, Rico Tadjudin 1906398326, 1906398364.pdf

Tidak ada review pada koleksi ini: 51477

ABSTRAK Nama Penulis 1 / Program Studi : Michael Felix Haryono / Ilmu Komputer Nama Penulis 2 / Program Studi : Rico Tadjudin / Ilmu Komputer Judul : Gramatika: Dataset Sintetik untuk Grammatical Error Correction Bahasa Indonesia Pembimbing : Dr. Ika Alfina, S.Kom., M.Kom. Grammatical Error Correction (GEC) merupakan bagian dari Natural Language Processing yang membahas suatu task untuk mendeteksi dan setelahnya mengoreksi suatu teks. Pekerjaan tersebut mencakup pendeteksian dan pengoreksian kesalahan tata bahasa, kesalahan ortografi, dan semantik. Perkembangan GEC untuk bahasa Indonesia terkendala oleh sedikitnya dataset yang dapat digunakan untuk melatih model GEC. Penelitian ini mengusulkan pendekatan rule-based untuk membangun sebuah dataset sintetik yang mengandung kalimat salah secara tata bahasa baku bahasa Indonesia beserta koreksinya. Hal tersebut dapat dilakukan dengan memanfaatkan kamus tesaurus bahasa Indonesia dan alat bantuan NLP seperti tokenizer, part-of-speech tagger, morphological analyzer, dan dependency parser untuk mengekstrak informasi konteks dari kalimat. Kumpulan data sintetik dibangkitkan dengan menggunakan kalimat yang benar secara tata bahasa dari halaman0halaman situs Wikipedia sebagai kalimat input. Dataset ini menyediakan data dalam dua format yang berbeda, yaitu dalam format M2 dan dalam bentuk pasangan kalimat salah dan benar. Pembangkitan kesalahan tata bahasa akan memiliki 17 kemungkinan jenis kesalahan tata bahasa yang berbeda dengan total 16.898 kalimat salah yang dibentuk. Pengujian Gramatika dilakukan dengan melakukan evaluasi secara manual mengenai ketepatan pembangkitan tiap kesalahan pada kalimat. Pengujian manual dilakukan dengan melakukan stratified random sampling untuk mengambil sampel 100 kalimat. Sampel tersebut minimal memiliki 5 contoh untuk setiap jenis kesalahan tata bahasa. Dari pengevaluasian yang dilalukan oleh dua penguji, didapatkan nilai accuracy sebesar 91,1%. Kata kunci: dataset sintetik, grammatical error correction, rule-based, bahasa Indonesia, format M2, gramatika