ABSTRAK
Nama : Alif Iqbal Hazairin
Program Studi : Ilmu Komputer
Judul : Web Crawling Untuk Pembangunan Korpus Bahasa-Bahasa Daerah
Indonesia
Bahasa daerah adalah bahasa yang digunakan sebagai penghubung pada masyarakat suatu
daerah atau suatu kelompok masyarakat tertentu di samping bahasa utama, yaitu bahasa
Indonesia. Keragaman bahasa daerah di Indonesia merupakan kekayaan budaya yang
harus dipertahankan sepanjang zaman. Sayangnya, penggunaan bahasa daerah yang
berkurang serta minimnya perhatian masyarakat pada digitalisasi bahasa daerah membuat
bahasa daerah semakin terpinggirkan. Tak terkecuali pada bidang NLP, belum ada
perkembangan signifikan dalam puluhan tahun terakhir yang melibatkan bahasa daerah
sebagai subjek penelitian.
Oleh karena itu, penelitian ini mencoba memberikan salah satu cara untuk meningkatkan
kembali pelibatan bahasa daerah dalam penelitian khususnya NLP. Penelitian ini
mencoba membangun korpus teks untuk sebanyak mungkin bahasa daerah di Indonesia
menggunakan metode web crawling. Sistem melakukan crawling untuk mengumpulkan
web berbahasa daerah sebanyak-banyaknya dan kontennya diambil dengan melakukan
web scraping. Teks hasil scraping selanjutnya dinormalisasikan dan dilakukan language
identification pada tiap kalimatnya. Kalimat dengan bahasa mayor seperti Indonesia dan
Inggris dibuang, dan kalimat yang berbahasa daerah dipertahankan. Hasilnya adalah
korpus teks untuk ratusan bahasa daerah di Indonesia. Harapannya hasil penelitian ini
dapat menjadi batu loncatan penelitian bahasa daerah NLP di Indonesia selanjutnya.
Kata Kunci:
Bahasa daerah Indonesia, korpus, language identification, web crawling
|
|