Nama : Muhammad Anwar Farihin
Program Studi : Ilmu Komputer
Judul : Pengenalan Entitas Bernama pada Twit Berbahasa Indonesia Menggunakan Model Pre-Trained BERT
Pengenalan Entitas Bernama (NER) telah diteliti cukup dalam, khususnya pada korpus
berbahasa Inggris. Namun, penelitian NER pada korpus twit berbahasa Indonesia masih
sangat sedikit karena minimnya dataset yang tersedia secara publik. BERT sebagai salah satu model state-of-the-art pada permasalahan NER belum diimplementasikan pada
korpus twit berbahasa Indonesia. Kontribusi kami pada penelitian ini adalah mengembangkan dataset NER baru pada korpus twit berbahasa Indonesia sebanyak 7.426 twit,
serta melakukan eksperimen pada model CRF dan BERT pada dataset tersebut. Pada
akhirnya, model terbaik pada penelitian ini menghasilkan nilai F1 72,35% pada evaluasi tingkat token, serta nilai F1 79,27% (partial match) dan 75,40% (exact match) pada
evaluasi tingkat entitas.
Kata kunci:
Pengenalan Entitas Bernama, Twit Bahasa Indonesia, BERT, CRF
|
|