Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1282 (SOFTCOPY SK-764) SOURCE CODE SK-509
Collection Type Skripsi
Title Pengembangan sistem identifikasi bahasa Indonesia, Jawa, Minang dan Sunda pada twitter
Author Puji Martadinata;
Publisher Depok : Fakultas Ilmu Komputer, 2014
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1282 (SOFTCOPY SK-764) SOURCE CODE SK-509 TERSEDIA
Tidak ada review pada koleksi ini: 41969
ABSTRAK Nama : Puji Martadinata Program Studi : Ilmu Komputer Judul : Pengembangan Sistem Identifikasi Bahasa Indonesia, Jawa, Minang dan Sunda pada Twitter Jumlah bahasa daerah yang berada di Indonesia mencapai 746. Dengan jumlah yang cukup banyak tersebut, terdapat kesulitan dalam pengenalan suatu bahasa, sehingga dibutuhkan suatu sistem language identification untuk mengatasi masalah tersebut. Oleh karena itu, dilakukan eksperimen untuk mencari pendekatan paling optimal dalam identifikasi bahasa terutama bahasa daerah yang terdapat di Indonesia. Eksperimen ini menggunakan metode n-gram, pendekatan statistik dengan Markov model, dan small word technique. Selain itu, eksperimen fokus terhadap besar ukuran korpus, jumlah bahasa yang digunakan dan juga fitur hashtag yang terdapat pada Twitter. Berdasarkan hasil yang didapat, artikel pada Wikipedia dapat menghasilkan presisi yang tinggi dalam menentukan bahasa pada suatu tweet. Presisi tertinggi didapatkan dengan menggunakan metode Markov model dengan 5-grams. Kata Kunci: Language Identification, Language model, Wikipedia, Tweet, Presisi