Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1699 (Softcopy SK-1181) Source Code-680
Collection Type Skripsi
Title Normalisasi Teks Code Mixed Bahasa Indonesia-Inggris pada Data Twitter Dengan Menggunakan Metode Conditional Random Field, Word Embedding dan Matrix Language-Frame Model
Author Anab Maulana Barik;
Publisher Depok: Fakultas Ilmu Komputer Universias Indonesia, 2019
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1699 (Softcopy SK-1181) Source Code-680 TERSEDIA
Tidak ada review pada koleksi ini: 46683
ABSTRAK Nama : Anab Maulana Barik Program Studi : Ilmu Komputer Judul : Normalisasi Teks Code Mixed Bahasa Indonesia-Inggris pada Data Twitter Dengan Menggunakan Metode Conditional Random Field, Word Embedding dan Matrix Language-Frame Model Tweet yang bersifat tidak normal dan dapat memuat lebih dari satu bahasa memunculkan kebutuhan untuk melakukan normalisasi teks karena sistem language processing yang sudah ada tidak cukup baik jika digunakan pada data tersebut. Pada penelitian ini, diajukan pendekatan untuk melakukan normalisasi teks dengan bentuk pipeline. Pipeline yang diajukan terdiri dari 4 tahapan, yaitu tokenisasi, identifikasi bahasa, normalisasi dan translasi. Tahap tokenisasi menggunakan model Conditional Random Field menghasilkan F1-Score sebesar 98,40% untuk evaluasi pelabelan dan F1-Score 93,78% untuk evaluasi hasil tokenisasi. Tahap identifikasi bahasa menggunakan model Conditional Random Field menghasilkan akurasi sebesar 88,18%. Tahap normalisasi menggunakan model word embedding dengan pendekatan rule-based menghasilkan akurasi 90,71% untuk penentuan kata baku dan tidak baku serta akurasi 83,04% untuk hasil kata normalisasi. Tahap translasi menggunakan model Matrix Frame-Language di atas mesin translasi menghasilkan 71,94 untuk metrik BLUE dan 19,03 untuk metrik WER. Keseluruhan pipeline menghasilkan akurasi sebesar 48,32 untuk BLEU dan 37,36 untuk WER. Dari hasil tersebut, model Conditional Random Field menghasilkan performa yang baik dalam melakukan tokenisasi dan identifikasi bahasa pada data Code Mixed Bahasa Indonesia-Inggris. Model word embedding juga menghasilkan performa yang baik dalam melakukan normalisasi kata, dan penambahan Matrix Frame-Language Model di atas mesin translasi meningkatkan performa dari mesin translasi tersebut. Kata Kunci: Normalisasi Teks, Code Mixed, Conditional Random Field, word embedding, Matrix Language-Frame Model