ABSTRAK
Ambiguitas adalah masalah yang seringkali ditemui dalam pemrosesan
bahasa alami oleh komputer. Word Sense Disambiguation (WSD) adalah upaya
untuk menentukan makna yang tepat dari sebuah kata yang ambigu. Berbagai
penelitian tentang WSD telah banyak dikerjakan, namun penelitian WSD untuk
bahasa Indonesia belum banyak dilakukan. Ketersediaan korpus paralel berbahasa
Inggris-Indonesia dan sumber pengetahuan bahasa berupa WordNet bahasa
Inggris dan bahasa Indonesia dapat dimanfaatkan untuk menyediakan data
pelatihan untuk WSD dengan metode Cross-Lingual WSD (CLWSD). Data
pelatihan ini kemudian dijadikan input untuk klasifikasi dengan algoritma Naive
Bayes, sehingga model klasifikasinya dapat digunakan untuk melakukan
monolingual WSD untuk bahasa Indonesia. Evaluasi klasifikasi menunjukkan
rata-rata akurasi hasil klasifikasi lebih tinggi dari baseline. Penelitian ini juga
menggunakan stemming dan stopwords removal untuk mengetahui bagaimana
efeknya terhadap klasifikasi. Penggunaan stemming menaikkan rata-rata akurasi,
sedangkan penerapan stopwords removal menurunkan rata-rata akurasi. Namun
pada kata yang memiliki dua makna dalam konteks yang cukup jelas berbeda,
stemming dan stopwords removal dapat menaikkan rata-rata akurasi.
|