Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number T-1461 (softcopy T-1170) MAK PI-261 TR-CSUI-133
Collection Type Tesis
Title Deteksi Pertanyaan serupa pada Forum Consumer Health Berbahasa Indonesia dengan Pendekatan Klasifikasi Biner
Author Eka Putri Irianti;
Publisher Depok: Fasilkom UI, 2024
Subject question similarity detection
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
T-1461 (softcopy T-1170) MAK PI-261 TR-CSUI-133 TERSEDIA
Tidak ada review pada koleksi ini: 56525
ABSTRAK

Nama : Eka Putri Irianti Program Studi : Magister Ilmu Komputer Judul : Deteksi Pertanyaan Serupa pada Forum Consumer Health Berbahasa Indonesia dengan Pendekatan Klasifikasi Biner Pembimbing : Alfan Farizki Wicaksono, S.T., M.Sc., Ph.D. Pertambahan pengguna forum consumer health menyebabkan menumpuknya pertanyaan serupa yang tidak terjawab secara memadai. Dua buah pertanyaan dikatakan serupa apabila kedua pertanyaan dapat dijawab dengan jawaban yang sama. Identifikasi pertanyaan serupa pada forum tanya jawab medis daring bermanfaat bagi pengguna maupun tenaga medis. Untuk itu, deteksi pertanyaan serupa perlu dilakukan untuk menjawab pertanyaan secara tepat dan efektif. Penelitian ini mengeksplorasi pendekatan klasifikasi biner untuk mendeteksi pertanyaan serupa pada domain consumer health bahasa Indonesia. Selain itu, penelitian ini juga menelaah dan menerapkan beberapa teknik untuk mengatasi ketidakseimbangan kelas pada dataset. Selanjutnya, penelitian ini juga mengkaji fitur-fitur yang diskriminatif dalam mengidentifikasi kesamaan semantik dari pasangan pertanyaan. Hasil penelitian menunjukkan bahwa performa klasifikasi berbasis fitur dengan model ansambel boosting CatBoost unggul dibandingkan klasifikasi secara end-to-end dengan model BERT. Penelitian ini juga menemukan bahwa teknik imbalanced learning dengan ADASYN dan SMOTE memberi hasil klasifikasi terbaik dengan menggunakan kombinasi fitur jarak, fitur medis, dan encoding yang diskriminatif dalam mendeteksi pasangan pertanyaan serupa pada forum consumer health Berbahasa Indonesia.