Call Number | SK-2242 (Softcopy SK-1724) |
Collection Type | Skripsi |
Title | Handling Noisy Text to Improve Lemmatization and POS Tagging Accuracy For Informal Indonesian Text |
Author | Erica Harlin; |
Publisher | Depok: Fakultas Ilmu Komputer UI, 2023 |
Subject | |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
SK-2242 (Softcopy SK-1724) | TERSEDIA |
ABSTRAK Nama : Erica Harlin Program Studi : Computer Science Judul : Handling Noisy Text to Improve Lemmatization and POS Tagging Accuracy for Informal Indonesian Text Pembimbing : Dr. Ika Alfina, S.Kom., M.Kom. Arlisa Yuliawati, S.Kom., M.Kom. Aksara adalah sebuah NLP tool yang menuruti Universal Dependencies (UD) v2. Penelitian terakhir terkait pemrosesan bahasa informal pada Aksara adalah v1.2 (Aksara lama) yang berfokus pada kemampuan Aksara untuk memproses kata-kata dasar informal dan kata-kata dengan afiksasi informal. Penelitian ini bertujuan untuk mengembangkan kemampuan Aksara dalam memproses noisy text. Dalam penelitian ini, terdapat 5 metode yang dipertimbangkan untuk menormalisasikan noisy text, yaitu: (1) Levenshtein distance, (2) DamerauLevenshtein distance, (3) perbandingan subsequence, (4) Longest Common Subsequence (LCS), dan (5) SymSpell. Untuk menentukan metode mana yang paling cocok, kami membangun dataset sintetis berukuran 20.000 kata, lalu membandingkan performa metode yang satu dengan yang lain dalam menormalisasikan dataset sintetis tersebut. Pasangan (metode; akurasi) yang didapatkan adalah sebagai berikut: (Levenshtein distance; 61.21), (Damerau-Levenshtein distance; 61.15), (perbandingan subsequence; 40.17), (LCS; 67.35), dan (SymSpell; 68.5). Metode yang akhirnya dipilih adalah SymSpell karena metode ini yang menghasilkan akurasi yang paling tinggi. Versi Aksara yang dihasilkan oleh penelitian ini adalah Aksara v1.4 (Aksara baru). Untuk mengevaluasi Aksara baru, dipakai gold standard yang terdiri dari 152 kalimat dan 1786 token. Hasil evaluasi menunjukkan lemmatizer Aksara baru memiliki akurasi senilai 90.99% dan 91.66% untuk kasus case-sensitive dan case-insensitive, dengan peningkatan 5.67% dan 5.60% berturut-turut dibandingkan Aksara lama. Untuk POS tagger, Aksara baru memiliki akurasi senilai 83%, recall senilai 83%, dan F1 score senilai 83%, dengan peningkatan sebesar 7%, 7%, and 2% berturut-turut dibandingkan Aksara lama. Kata kunci: bahasa informal, lematisasi, noisy text, normalisasi teks, POS tagging