ABSTRAK Nama : Alif Iqbal Hazairin Program Studi : Ilmu Komputer Judul : Web Crawling Untuk Pembangunan Korpus Bahasa-Bahasa Daerah Indonesia Bahasa daerah adalah bahasa yang digunakan sebagai penghubung pada masyarakat suatu daerah atau suatu kelompok masyarakat tertentu di samping bahasa utama, yaitu bahasa Indonesia. Keragaman bahasa daerah di Indonesia merupakan kekayaan budaya yang harus dipertahankan sepanjang zaman. Sayangnya, penggunaan bahasa daerah yang berkurang serta minimnya perhatian masyarakat pada digitalisasi bahasa daerah membuat bahasa daerah semakin terpinggirkan. Tak terkecuali pada bidang NLP, belum ada perkembangan signifikan dalam puluhan tahun terakhir yang melibatkan bahasa daerah sebagai subjek penelitian. Oleh karena itu, penelitian ini mencoba memberikan salah satu cara untuk meningkatkan kembali pelibatan bahasa daerah dalam penelitian khususnya NLP. Penelitian ini mencoba membangun korpus teks untuk sebanyak mungkin bahasa daerah di Indonesia menggunakan metode web crawling. Sistem melakukan crawling untuk mengumpulkan web berbahasa daerah sebanyak-banyaknya dan kontennya diambil dengan melakukan web scraping. Teks hasil scraping selanjutnya dinormalisasikan dan dilakukan language identification pada tiap kalimatnya. Kalimat dengan bahasa mayor seperti Indonesia dan Inggris dibuang, dan kalimat yang berbahasa daerah dipertahankan. Hasilnya adalah korpus teks untuk ratusan bahasa daerah di Indonesia. Harapannya hasil penelitian ini dapat menjadi batu loncatan penelitian bahasa daerah NLP di Indonesia selanjutnya. Kata Kunci: Bahasa daerah Indonesia, korpus, language identification, web crawling