Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number DIS-145 (softcopy DIS-136) TR-CSUI-90 MAK PI-55
Collection Type Disertasi
Title Ekstraksi Toponim dengan Pendekatan Rule-Based dan Mobil PreTrained Transformer pada Teks Berita Daring Berbahasa Indonesia
Author Rizka Windiastuti;
Publisher Depok: Fasilkom UI, 2025
Subject Natural language processing
Location
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
DIS-145 (softcopy DIS-136) TR-CSUI-90 MAK PI-55 TERSEDIA
Tidak ada review pada koleksi ini: 56225
ABSTRAK

Nama : Rizka Windiastuti Program Studi : Doktor Ilmu Komputer Judul : Ekstraksi Toponim dengan Pendekatan Rule-Based dan Model Pre- Trained Transformer pada Teks Berita Daring Berbahasa Indonesia Promotor : Prof. Dr. Indra Budi, S.Kom., M.Kom. Ko-Promotor : Prof. Dr. Multamia RMT Lauder, S.S., Mse., D.E.A. Toponim tidak hanya sekedar nama tempat di atas peta, namun merupakan elemen strategis dalam penentuan batas wilayah, penegakan hukum administrasi, serta pembentukan identitas geografis suatu daerah. Mengingat pentingnya toponim dalam konteks informasi geospasial dan administrasi kewilayahan, Perserikatan Bangsa-Bangsa (PBB) telah merekomendasikan dibentuknya National Names Authority (NNA) di setiap negara untuk mengurusi toponim. Toponim dihimpun dalam pangkalan data Gazeter Republik Indonesia (GRI). Pengumpulan data untuk memperkaya gazeter ini saat ini masih dilakukan secara manual melalui survei lapangan, sehingga diperlukan inovasi untuk mempercepatnya. Sementara itu, berita daring yang memuat informasi terkini tentang peristiwa di suatu tempat belum dimanfaatkan secara optimal, padahal hasil analisis komputasional dan statistik terhadap berita surat kabar menunjukkan bahwa toponim mendominasi frekuensi kemunculan dan signifikansinya pada berita untuk kategori "nama", sehingga memiliki potensi besar dijadikan sebagai sumber data. Penelitian ini bertujuan mengekstraksi toponim dari berita daring berbahasa Indonesia dengan pendekatan berbasis aturan (rule-based) dan menggunakan model pre-trained berbasis transformer (IndoBERT dan XLM-RoBERTa). Berbeda dari ekstraksi lokasi yang umumnya dilakukan oleh aplikasi NER, penelitian ini memfokuskan pada elemen toponim sesuai standar Gazeter Republik Indonesia (GRI), yaitu nama generik dan spesifik. Entitas yang diekstraksi meliputi 'topo-genspe' yang merepresentasikan entitas toponim lengkap yang terdiri dari nama generik dan nama spesifik, 'topo-spe' untuk entitas toponim yang tidak mengandung nama generik, dan 'meto' untuk entitas yang menggunakan toponim secara metonimik. Metode rule-based dalam penelitian ini mengandalkan struktur permukaan linguistik, seperti penggunaan huruf kapital, kata sambung, dan ciri leksikal berbasis referensi resmi. Meskipun tidak mempertimbangkan aspek semantik, pendekatan ini menunjukkan performa yang baik, dengan skor F1 makro sebesar 76,14%. Sementara itu, model IndoBERT meraih skor 72,56% dan XLMRoBERTa sebesar 92,23%. Setelah diterapkan post-processing, skor meningkat menjadi 76,12% untuk IndoBERT dan 92,64% untuk XLM-RoBERTa. Hasil ini menunjukkan bahwa kombinasi pemahaman konteks oleh model transformer dan koreksi berbasis aturan mampu memperbaiki hasil prediksi dengan memperkuat struktur entitas yang sebelumnya gagal terdeteksi secara utuh