Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-2705 (softcopy SK-2186)
Collection Type Skripsi
Title Sample Complexity of Policy Gradient Reinforcement Learning in Environments With Transient States
Author Ardhito Nurhadyansah;
Publisher Depok: Fasilkom UI, 2025
Subject Policy Gradient Reinforcement
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-2705 (softcopy SK-2186) TERSEDIA
Tidak ada review pada koleksi ini: 56602
ABSTRAK

Nama : Ardhito Nurhadyansah Program Studi : Ilmu Komputer Judul : Kompleksitas Sampel Policy Gradient Reinforcement Learning di Environments dengan Transient States Pembimbing : Prof. Dr. Eng. Wisnu Jatmiko, S.T., M.Kom. Vektor Dewanto, S.T., M.Eng., Ph.D. Reinforcement Learning (RL), yang berguna untuk masalah-masalah pengambilan keputusan secara sekuensial, seringkali memiliki tantangan dalam implementasinya karena kebutuhan akan sumber daya komputasi yang tinggi. Riset ini menekankan pentingnya kebutuhan akan algoritma RL yang sample-efficient, terutama untuk environments dengan transient states. Kami berfokus pada kondisi permasalahan dengan keberadaan transient states karena pada proses pengambilan keputusan yang riil, pilihan-pilihan yang diambil pada states terkait merupakan hal yang sangat krusial. Meskipun begitu, masih terdapat banyak implementasi praktis yang tidak menghiraukan keberadaan transient states, yang menyebabkan pemodelan permasalahan atau desain environment yang tidak optimal. Kami mensyaratkan algoritma untuk memenuhi kriteria optimalitas Blackwell, sebagai kriteria yang paling ideal pada kondisi permasalahan yang difokuskan, sebelum mengukur kompleksitas sampel yang dihasilkan. Hal ini didasarkan pada pertimbangan bahwa sebuah algoritma yang efisien akan sia-sia jika gagal menyelesaikan permasalahan utama. Namun, meskipun kriteria optimalitas Blackwell ideal secara teoretis, hal tersebut sulit untuk diaplikasikan, sehingga dibutuhkan dua kriteria lain sebagai pendekatan: discounted reward dan discounting-free bias-optimality. Algoritma-algoritma yang berbasis discounted reward, meskipun populer, seringkali masih menghasilkan ketidaksesuaian antara yang diprediksi dengan yang terjadi secara aktual. Selain itu, masih banyak implementasi yang menyimpang dari prinsip teoretis penggunaan sampel yang benar. Untuk menjembatani ketimpangan antara konsep teoretis dengan implementasi praktis, kami menyelidiki dua pertanyaan: (1) Bagaimana komparasi sample-complexity antara metode-metode policy gradient yang berbasis discounting-free dengan yang berbasis discounted? (2) Bagaimana komparasi performa antara metode pengambilan sampel secara proper (geometrically distributed truncation) dengan popular (fixed-horizon) dalam kerangka discounted? Hasil empiris menunjukkan bahwa metode policy gradient yang berbasis discounting-free secara rata-rata lebih sample-efficient dibandingkan yang berbasis discounted. Sementara itu, di dalam kerangka discounted, metode pengambilan sampel secara proper meningkatkan sample-efficiency, tetapi secara rata-rata, metode popular menghasilkan konvergensi yang lebih efektif.