ABSTRAK
Nama : Anab Maulana Barik
Program Studi : Ilmu Komputer
Judul : Normalisasi Teks Code Mixed Bahasa Indonesia-Inggris pada Data
Twitter Dengan Menggunakan Metode Conditional Random
Field, Word Embedding dan Matrix Language-Frame Model
Tweet yang bersifat tidak normal dan dapat memuat lebih dari satu bahasa memunculkan
kebutuhan untuk melakukan normalisasi teks karena sistem language processing
yang sudah ada tidak cukup baik jika digunakan pada data tersebut. Pada penelitian
ini, diajukan pendekatan untuk melakukan normalisasi teks dengan bentuk pipeline.
Pipeline yang diajukan terdiri dari 4 tahapan, yaitu tokenisasi, identifikasi bahasa,
normalisasi dan translasi. Tahap tokenisasi menggunakan model Conditional Random
Field menghasilkan F1-Score sebesar 98,40% untuk evaluasi pelabelan dan F1-Score
93,78% untuk evaluasi hasil tokenisasi. Tahap identifikasi bahasa menggunakan model
Conditional Random Field menghasilkan akurasi sebesar 88,18%. Tahap normalisasi
menggunakan model word embedding dengan pendekatan rule-based menghasilkan
akurasi 90,71% untuk penentuan kata baku dan tidak baku serta akurasi 83,04% untuk
hasil kata normalisasi. Tahap translasi menggunakan model Matrix Frame-Language
di atas mesin translasi menghasilkan 71,94 untuk metrik BLUE dan 19,03 untuk metrik
WER. Keseluruhan pipeline menghasilkan akurasi sebesar 48,32 untuk BLEU dan
37,36 untuk WER. Dari hasil tersebut, model Conditional Random Field menghasilkan
performa yang baik dalam melakukan tokenisasi dan identifikasi bahasa pada data Code
Mixed Bahasa Indonesia-Inggris. Model word embedding juga menghasilkan performa
yang baik dalam melakukan normalisasi kata, dan penambahan Matrix Frame-Language
Model di atas mesin translasi meningkatkan performa dari mesin translasi tersebut.
Kata Kunci:
Normalisasi Teks, Code Mixed, Conditional Random Field, word embedding, Matrix
Language-Frame Model
|
|