Call Number | SK-2502 (Softcopy SK-1984) |
Collection Type | Skripsi |
Title | Komparasi Variasi Algoritmik dalam Average-Reward Value Iteration Reinforcement Learning |
Author | Reiou Nagata; |
Publisher | Depok: Fasilkom UI, 2025 |
Subject | Reinforcement Learning, |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
SK-2502 (Softcopy SK-1984) | TERSEDIA |
Nama : Reiou Nagata Program Studi : Ilmu Komputer Judul : Komparasi Variasi Algoritmik dalam Average-Reward Value-Iteration Reinforcement Learning Pembimbing : Prof. Dr. Eng. Wisnu Jatmiko, S.T., M.Kom. Vektor Dewanto, S.T., M.Eng., Ph.D. Penelitian ini mengeksplorasi dan membandingkan tujuh variasi algoritma Relative Value Iteration (RVI) dengan pendekatan average reward dalam Reinforcement Learning (RL), khususnya pada dua environment benchmark yaitu Access Control Queueing Task dan Jacks Car Rental. Penelitian difokuskan pada analisis varian optimal gain approximation (non-stokastik dan stokastik) serta qb function approximation, dengan metrik evaluasi berupa learning curve dan approximate converged value. Hasil eksperimen menunjukkan bahwa performa masing-masing varian sangat bergantung pada karakteristik environment, pemilihan reference state-action, serta tuning hyperparameter. Pada environment Access Control, kombinasi Tabular VI dengan varian non-stokastik Abounadi et al. (2002) menunjukkan performa reward terbaik. Sedangkan pada Jack’s Car Rental, metode stokastik Schwartz (1993) dan greedy Singh (1994) unggul dalam mendekati optimal gain. Temuan ini menegaskan bahwa tidak ada satu varian yang dominan di semua kondisi, sehingga pemilihan algoritma harus disesuaikan dengan struktur masalah dan tujuan aplikasi. Penelitian ini diharapkan menjadi acuan dalam pengembangan algoritma average-reward RL yang lebih robust dan adaptif di masa depan.