Tidak ada review pada koleksi ini: 51182
Nama : Darian Texanditama
Program Studi : Ilmu Komputer
Judul : Optimalisasi Kinerja Pemelajaran Mesin di Bidang Pendidikan dengan Contoh Kasus Prediksi Mahasiswa Putus
Studi di Beberapa Perguruan Tinggi Indonesia
Pembimbing : Ari Wibisono, S.Kom., M.Kom
Dr. Ir. Petrus Mursanto, M.Sc.
Pemelajaran mesin dikenal sangat berguna dalam menyelesaikan permasalahan prediksi
dan klasifikasi melalui pembelajaran pola dan perilaku data yang tersedia. Oleh karena
itu, pemelajaran mesin dapat dimanfaatkan di berbagai bidang kehidupan dan industri
modern. Namun, kinerja pemelajaran mesin sangat tergantung dari model pemelajaran
mesin yang digunakan maupun dari kualitas data yang digunakan untuk pemelajaran.
Data yang tidak bersih, tidak representatif, dan ketersediaannya terbatas akan mengurangi
kualitas hasil prediksinya.
Penelitian ini bertujuan untuk menguji kombinasi beberapa metode pemrosesan data
(yaitu MissForest, GAIN, ENN, dan TabGAN oversampling) dengan model pembelajaran
mesin (yaitu model CatBoost dan model klasifikasi biner berbasis neural network) untuk
memprediksi kasus mahasiswa putus studi di beberapa universitas di Indonesia menggunakan data dari PDDikti. Penambahan fitur dilakukan untuk memberi label bidang
studi terhadap dataset tersebut. Selain penambahan fitur seleksi fitur relevan menggunakan korelasi Pearson serta feature importances juga dilakukan setelah pelatihan model
awal. Google Colab dengan bahasa pemrograman Python digunakan untuk menjalankan
algoritma pemrosesan data dan pelatihan model.
Hasil penelitian menunjukkan bahwa model CatBoost dengan kombinasi metode imputasi GAIN, undersampling ENN, dan tanpa fitur kelompok bidang studi memberikan
F1-score tertinggi yaitu 66,38% dengan nilai precision 71,75% dan nilai recall 61,76%.
Apabila digunakan model klasifikasi biner pemelajaran dalam akan didapatkan metrik
terbaik F1-score 62,32%. Hasil terbaik penelitian ini menunjukkan peningkatan F1-score
sebesar 2,15% dibandingkan dengan F1-score pada penelitian sebelumnya yang menggunakan model CatBoost bersama kombinasi Missforest dan ENN tanpa fitur kelompok
bidang studi. Penelitian ini menunjukkan bahwa oversampling dan undersampling memberikan dampak yang berlawanan terhadap metrik precision dan recall. Penelitian juga
menemukan seleksi fitur dapat meningkatkan kinerja model namun tidak berdampak besar dibandingkan teknik-teknik lain misalnya balancing dan optimisasi hyperparameter.
Kata kunci: pemelajaran mesin, pemodelan prediktif, pemelajaran dalam, gradient boosting, pemrosesan data, imputasi data, ekstraksi fitur