Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-2242 (Softcopy SK-1724)
Collection Type Skripsi
Title Handling Noisy Text to Improve Lemmatization and POS Tagging Accuracy For Informal Indonesian Text
Author Erica Harlin;
Publisher Depok: Fakultas Ilmu Komputer UI, 2023
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-2242 (Softcopy SK-1724) TERSEDIA
Tidak ada review pada koleksi ini: 51626
ABSTRAK

ABSTRAK Nama : Erica Harlin Program Studi : Computer Science Judul : Handling Noisy Text to Improve Lemmatization and POS Tagging Accuracy for Informal Indonesian Text Pembimbing : Dr. Ika Alfina, S.Kom., M.Kom. Arlisa Yuliawati, S.Kom., M.Kom. Aksara adalah sebuah NLP tool yang menuruti Universal Dependencies (UD) v2. Penelitian terakhir terkait pemrosesan bahasa informal pada Aksara adalah v1.2 (Aksara lama) yang berfokus pada kemampuan Aksara untuk memproses kata-kata dasar informal dan kata-kata dengan afiksasi informal. Penelitian ini bertujuan untuk mengembangkan kemampuan Aksara dalam memproses noisy text. Dalam penelitian ini, terdapat 5 metode yang dipertimbangkan untuk menormalisasikan noisy text, yaitu: (1) Levenshtein distance, (2) DamerauLevenshtein distance, (3) perbandingan subsequence, (4) Longest Common Subsequence (LCS), dan (5) SymSpell. Untuk menentukan metode mana yang paling cocok, kami membangun dataset sintetis berukuran 20.000 kata, lalu membandingkan performa metode yang satu dengan yang lain dalam menormalisasikan dataset sintetis tersebut. Pasangan (metode; akurasi) yang didapatkan adalah sebagai berikut: (Levenshtein distance; 61.21), (Damerau-Levenshtein distance; 61.15), (perbandingan subsequence; 40.17), (LCS; 67.35), dan (SymSpell; 68.5). Metode yang akhirnya dipilih adalah SymSpell karena metode ini yang menghasilkan akurasi yang paling tinggi. Versi Aksara yang dihasilkan oleh penelitian ini adalah Aksara v1.4 (Aksara baru). Untuk mengevaluasi Aksara baru, dipakai gold standard yang terdiri dari 152 kalimat dan 1786 token. Hasil evaluasi menunjukkan lemmatizer Aksara baru memiliki akurasi senilai 90.99% dan 91.66% untuk kasus case-sensitive dan case-insensitive, dengan peningkatan 5.67% dan 5.60% berturut-turut dibandingkan Aksara lama. Untuk POS tagger, Aksara baru memiliki akurasi senilai 83%, recall senilai 83%, dan F1 score senilai 83%, dengan peningkatan sebesar 7%, 7%, and 2% berturut-turut dibandingkan Aksara lama. Kata kunci: bahasa informal, lematisasi, noisy text, normalisasi teks, POS tagging