| Call Number | SK-2705 (softcopy SK-2186) |
| Collection Type | Skripsi |
| Title | Sample Complexity of Policy Gradient Reinforcement Learning in Environments With Transient States |
| Author | Ardhito Nurhadyansah; |
| Publisher | Depok: Fasilkom UI, 2025 |
| Subject | Policy Gradient Reinforcement |
| Location | FASILKOM-UI; |
| Nomor Panggil | ID Koleksi | Status |
|---|---|---|
| SK-2705 (softcopy SK-2186) | TERSEDIA |
Nama : Ardhito Nurhadyansah Program Studi : Ilmu Komputer Judul : Kompleksitas Sampel Policy Gradient Reinforcement Learning di Environments dengan Transient States Pembimbing : Prof. Dr. Eng. Wisnu Jatmiko, S.T., M.Kom. Vektor Dewanto, S.T., M.Eng., Ph.D. Reinforcement Learning (RL), yang berguna untuk masalah-masalah pengambilan keputusan secara sekuensial, seringkali memiliki tantangan dalam implementasinya karena kebutuhan akan sumber daya komputasi yang tinggi. Riset ini menekankan pentingnya kebutuhan akan algoritma RL yang sample-efficient, terutama untuk environments dengan transient states. Kami berfokus pada kondisi permasalahan dengan keberadaan transient states karena pada proses pengambilan keputusan yang riil, pilihan-pilihan yang diambil pada states terkait merupakan hal yang sangat krusial. Meskipun begitu, masih terdapat banyak implementasi praktis yang tidak menghiraukan keberadaan transient states, yang menyebabkan pemodelan permasalahan atau desain environment yang tidak optimal. Kami mensyaratkan algoritma untuk memenuhi kriteria optimalitas Blackwell, sebagai kriteria yang paling ideal pada kondisi permasalahan yang difokuskan, sebelum mengukur kompleksitas sampel yang dihasilkan. Hal ini didasarkan pada pertimbangan bahwa sebuah algoritma yang efisien akan sia-sia jika gagal menyelesaikan permasalahan utama. Namun, meskipun kriteria optimalitas Blackwell ideal secara teoretis, hal tersebut sulit untuk diaplikasikan, sehingga dibutuhkan dua kriteria lain sebagai pendekatan: discounted reward dan discounting-free bias-optimality. Algoritma-algoritma yang berbasis discounted reward, meskipun populer, seringkali masih menghasilkan ketidaksesuaian antara yang diprediksi dengan yang terjadi secara aktual. Selain itu, masih banyak implementasi yang menyimpang dari prinsip teoretis penggunaan sampel yang benar. Untuk menjembatani ketimpangan antara konsep teoretis dengan implementasi praktis, kami menyelidiki dua pertanyaan: (1) Bagaimana komparasi sample-complexity antara metode-metode policy gradient yang berbasis discounting-free dengan yang berbasis discounted? (2) Bagaimana komparasi performa antara metode pengambilan sampel secara proper (geometrically distributed truncation) dengan popular (fixed-horizon) dalam kerangka discounted? Hasil empiris menunjukkan bahwa metode policy gradient yang berbasis discounting-free secara rata-rata lebih sample-efficient dibandingkan yang berbasis discounted. Sementara itu, di dalam kerangka discounted, metode pengambilan sampel secara proper meningkatkan sample-efficiency, tetapi secara rata-rata, metode popular menghasilkan konvergensi yang lebih efektif.