ABSTRAK Nama : Raniah Nur Hanami Program Studi : Ilmu Komputer Judul : Pemodelan Tipe Semantik Pertanyaan pada Forum Tanya Jawab Medis Berbahasa Indonesia Pembimbing : Rahmad Mahendra, S.Kom., M.Sc. Alfan Farizki Wicaksono, S.T., M.Sc., Ph.D. Forum tanya jawab medis merupakan salah satu opsi yang dipilih masyarakat untuk berkonsultasi dengan dokter. Kehadiran sistem tanya jawab otomatis di bidang medis diharapkan dapat membantu pasien untuk mendapatkan jawaban secara cepat. Salah satu modul yang mendukung sistem ini adalah klasifikasi tipe semantik pertanyaan. Melalui penelitian ini, klasifikasi tipe semantik pertanyaan pada forum tanya jawab medis berbahasa Indonesia dilakukan dengan menggunakan 964 pertanyaan. Penelitian terdiri atas dua bagian. Bagian pertama adalah mengembangkan dataset. Dengan menggunakan interpretasi Cohen Kappa dari Landis & Koch, ditemukan bahwa tingkat kesepakatan annotator pakar tergolong cukup baik. Selanjutnya, dilakukan juga perhitungan tingkat kesepakatan antara anotasi pakar dengan non-pakar dan diketahui bahwa tingkat kesep- akatan antara keduanya tergolong baik (0.63). Kemudian, gold standard dibentuk untuk melakukan analisis kata yang menjadi karakteristik sebuah tipe semantik. Kata tersebut adalah dua puluh kata dengan nilai kontribusi LIME tertinggi dan conditional probability yang cenderung tinggi di suatu tipe semantik. Namun, tidak semua kata dengan kriteria tersebut dapat dikatakan sebagai karakteristik. Terdapat beberapa kata yang seharusnya tidak condong ke suatu tipe semantik saja atau disebut bias. Kata-kata bias yang dideteksi adalah kata-kata penyakit. Melalui proses ini diketahui adanya indikasi bias pada data penelitian yang digunakan dan indikasi bias pada model XGBoost, Naive Bayes, dan MLP cenderung dalam memprediksi pertanyaan yang mengandung kata ’kanker’ dan ’depresi’ ke DIAGNOSIS. Bagian kedua dilakukan setelah mengetahui karakteristik dari data penelitian yang digunakan, yaitu engembangkan model klasifikasi tipe semmantik pertanyaan medis berbahasa Indonesia secara otomatis. Eksperimen dilakukan dengan membandingkan hasil pemodelan dengan dan tanpa kata bias yang telah dideteksi. Berdasarkan hasil eksperimen, diketahui bahwa tidak ada perbedaan performa model antara data penelitian yang mengandung kata bias dan tidak. Secara keseluruhan, performa model Perceptron dan XGBoost memberikan skor weighted average F1 paling baik pada setiap skenario input dan faktor pembobot. Namun, performa model terbaik dicapai oleh model Naive Bayes setelah data di oversampling menggunakan Borderline SMOTE dari library imblearn Kata kunci: klasifikasi tipe semantik, pertanyaan medis, anotasi, pemodelan, oversampling, bias