ABSTRAK
Nama : Geswa Wahid Taqiuddin Program Studi : Ilmu Komputer Judul : IdentifikasiBahasauntukBahasaLokaldiIndonesiamenggunakan Naive Bayes dan Support Vector Machine
Identifikasi bahasa adalah pekerjaan yang dilakukan untuk mengetahui bahasa dari suatu dokumen. Skripsi ini meneliti tentang akurasi dan pengaruh dari parameter untuk model identifikasi bahasa dalam melakukan identifikasi beberapa bahasa daerah di Indonesia. Penelitian dilakukan untuk membandingkan beberapa model identifikasi bahasa, seperti Naive Bayes, SVM, dan model klasifikasi teks menggunakan statistik frekuensi N-gram. Beberapa fitur juga ikut diuji coba, seperti fitur kata dan fitur n-gram. Bahasa daerah yang diteliti dalam skripsi ini adalah Bahasa Indonesia, Bahasa Aceh, Bahasa Banjar, Bahasa Sunda, Bahasa Jawa, Bahasa Minang, dan Bahasa Banyumasan. Penelitian ini menemukan bahwa penggunaan fitur kata dengan algoritmaNaive Bayesatau SVMmemiliki performa yang paling baik dalam melakukan identifikasi bahasa.
Kata Kunci: identifikasi bahasa, temu balik informasi, bahasa daerah
|
|