ABSTRAK ABSTRAK
Nama : Erica Harlin
Program Studi : Computer Science
Judul : Handling Noisy Text to Improve Lemmatization and POS
Tagging Accuracy for Informal Indonesian Text
Pembimbing : Dr. Ika Alfina, S.Kom., M.Kom.
Arlisa Yuliawati, S.Kom., M.Kom.
Aksara adalah sebuah NLP tool yang menuruti Universal Dependencies (UD)
v2. Penelitian terakhir terkait pemrosesan bahasa informal pada Aksara adalah
v1.2 (Aksara lama) yang berfokus pada kemampuan Aksara untuk memproses
kata-kata dasar informal dan kata-kata dengan afiksasi informal. Penelitian
ini bertujuan untuk mengembangkan kemampuan Aksara dalam memproses
noisy text. Dalam penelitian ini, terdapat 5 metode yang dipertimbangkan untuk menormalisasikan noisy text, yaitu: (1) Levenshtein distance, (2) DamerauLevenshtein distance, (3) perbandingan subsequence, (4) Longest Common Subsequence (LCS), dan (5) SymSpell. Untuk menentukan metode mana yang paling
cocok, kami membangun dataset sintetis berukuran 20.000 kata, lalu membandingkan performa metode yang satu dengan yang lain dalam menormalisasikan
dataset sintetis tersebut. Pasangan (metode; akurasi) yang didapatkan adalah
sebagai berikut: (Levenshtein distance; 61.21), (Damerau-Levenshtein distance;
61.15), (perbandingan subsequence; 40.17), (LCS; 67.35), dan (SymSpell; 68.5).
Metode yang akhirnya dipilih adalah SymSpell karena metode ini yang menghasilkan akurasi yang paling tinggi. Versi Aksara yang dihasilkan oleh penelitian
ini adalah Aksara v1.4 (Aksara baru). Untuk mengevaluasi Aksara baru, dipakai
gold standard yang terdiri dari 152 kalimat dan 1786 token. Hasil evaluasi menunjukkan lemmatizer Aksara baru memiliki akurasi senilai 90.99% dan 91.66%
untuk kasus case-sensitive dan case-insensitive, dengan peningkatan 5.67% dan
5.60% berturut-turut dibandingkan Aksara lama. Untuk POS tagger, Aksara baru
memiliki akurasi senilai 83%, recall senilai 83%, dan F1 score senilai 83%, dengan
peningkatan sebesar 7%, 7%, and 2% berturut-turut dibandingkan Aksara lama.
Kata kunci:
bahasa informal, lematisasi, noisy text, normalisasi teks, POS tagging
|
|