ABSTRAK
Nama : Galangkangin Gotera
Program Studi : Ilmu Komputer
Judul : Pengembangan Neural Language Model untuk Bahasa Singlish dengan ELECTRA
Singlish adalah sebuah bahasa informal yang sering digunakan warga Singapura. Karena
informal, bahasa Singlish jarang ditemukan di media umum seperti majalah, koran, dan
artikel internet. Meski demikian, bahasa ini sangat sering digunakan oleh warga Singapura pada percakapan sehari-hari, baik daring maupun luring. Banyak campuran bahasa lain
(code-mixing) merupakan tantangan lain dari Singlish. Keterbatasan GPU juga menjadi
tantangan dalam mendapatkan model yang baik. Mempertimbangkan semua tantangan
ini, penulis telah melatih sebuah model Efficiently Learning an Encoder that Classifies
Token Replacements Accurately (ELECTRA) pada data berbahasa Singlish. ELECTRA
merupakan sebuah model baru yang menawarkan waktu training lebih cepat sehingga
menjadi pilihan baik jika memiliki keterbatasan GPU. Data Singlish didapatkan melalui
web scraping pada reddit dan hardwarezone. Penulis membuat sebuah dataset benchmark
pada dua buah permasalahan yaitu sentiment analysis dan singlish identification dengan
anotasi manual sebagai metode untuk mengukur kemampuan model dalam Singlish.
Penulis melakukan benchmarking pada model yang dilatih dengan beberapa model yang
tersedia secara terbuka dan menemukan bahwa model ELECTRA yang dilatih memiliki
perbedaan akurasi paling besar 2% dari model SINGBERT yang dilatih lebih lama
dengan data yang lebih banyak
Kata kunci:
Singlish, ELECTRA, dataset benchmark
|
|