Penelitian ini mengembangkan sistem pengenalan entitas bernama pada teks dokumen berbahasa Indonesia menggunakan pendekatan machine Learning. Metode dalam machine learning yang digunakan adalah association rules. Entitas yang dikenali pada penelitian ini adalah entitas nama orang. nama organisasi dan nama lokasi. Aturan-aturan untuk mengenali suatu entitas dibuat berdasarkan informasi morfologi dan kelas kata yang digunakan sebagai fitur term/token yang ingin dikenali. Suatu term dapat mempunyai satu fitur (fitur tunggal) atau banyak fitur (fitur berganda). Fitur berganda dapat dibuat berdasarkan informasi morfologi, informasi kelas kata dan gabungan keduanya. Uji coba sistem dilakukan pada beberapa kombinasi penggunaan informasi morfologi dan kelas kata dalam aturan. Hasil uji coba menunjukkan bahwa sistem dapat melakukan pengenalan entitas bernama dengan F-measure tertinggi sebesar 79,39%. Hasil ini diperoleh dengan aturan pengenalan entitas bernama yang dibuat berdasarkan gabungan informasi morfologi dan kelas kata.
|
|