Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1940 (Softcopy SK-1422) Source Code SK-744
Collection Type Skripsi
Title Pengembangan Neural Language Model untuk Bahasa Singlish dengan ELECTRA
Author Galangkangin Gotera;
Publisher Depok : Fakultas Ilmu Komputer Universitas Indonesia, 2021
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1940 (Softcopy SK-1422) Source Code SK-744 TERSEDIA
Tidak ada review pada koleksi ini: 49082
ABSTRAK Nama : Galangkangin Gotera Program Studi : Ilmu Komputer Judul : Pengembangan Neural Language Model untuk Bahasa Singlish dengan ELECTRA Singlish adalah sebuah bahasa informal yang sering digunakan warga Singapura. Karena informal, bahasa Singlish jarang ditemukan di media umum seperti majalah, koran, dan artikel internet. Meski demikian, bahasa ini sangat sering digunakan oleh warga Singapura pada percakapan sehari-hari, baik daring maupun luring. Banyak campuran bahasa lain (code-mixing) merupakan tantangan lain dari Singlish. Keterbatasan GPU juga menjadi tantangan dalam mendapatkan model yang baik. Mempertimbangkan semua tantangan ini, penulis telah melatih sebuah model Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) pada data berbahasa Singlish. ELECTRA merupakan sebuah model baru yang menawarkan waktu training lebih cepat sehingga menjadi pilihan baik jika memiliki keterbatasan GPU. Data Singlish didapatkan melalui web scraping pada reddit dan hardwarezone. Penulis membuat sebuah dataset benchmark pada dua buah permasalahan yaitu sentiment analysis dan singlish identification dengan anotasi manual sebagai metode untuk mengukur kemampuan model dalam Singlish. Penulis melakukan benchmarking pada model yang dilatih dengan beberapa model yang tersedia secara terbuka dan menemukan bahwa model ELECTRA yang dilatih memiliki perbedaan akurasi paling besar 2% dari model SINGBERT yang dilatih lebih lama dengan data yang lebih banyak Kata kunci: Singlish, ELECTRA, dataset benchmark