ABSTRAK Nama Penulis 1 / Program Studi : Billy Vande Yohannes / Ilmu Komputer Nama Penulis 2 / Program Studi : Hakim Amarullah / Ilmu Komputer Nama Penulis 3 / Program Studi : Muhammad Anis Abdul Aziz / Sistem Informasi Judul : Pengembangan Dashboard dan Analysis Tools untuk Infra- struktur Machine Learning Fakultas Ilmu Komputer Univer- sitas Indonesia Pembimbing : Ari Wibisono, S.Kom., M.Kom Dr. Rizal Fathoni Aji, S.Kom., M.Kom Proses training model membutuhkan sumber daya komputasi yang akan terus meningkat seiring dengan bertambahnya jumlah data dan jumlah iterasi yang telah dicapai. Hal ini dapat menimbulkan masalah ketika proses training model dilakukan pada lingkungan komputasi yang berbagi sumber daya seperti pada infrastruktur komputasi berbasis klaster. Masalah yang ditimbulkan terutama terkait dengan efisiensi, konkurensi, dan tingkat utilisasi sumber daya komputasi. Persoalan efisiensi muncul ketika sumber daya komputasi telah tersedia, tetapi belum mencukupi untuk kebutuhan job pada antrian ter- atas. Akibatnya sumber daya komputasi tersebut menganggur. Penggunaan sumber daya tersebut menjadi tidak efisien karena terdapat kemungkinan sumber daya tersebut cukup untuk mengeksekusi job lain pada antrian. Selain itu, pada cluster computing juga mem- butuhkan sistem monitoring untuk mengawasi dan menganalisis penggunaan sumber daya pada klaster. Penelitian ini bertujuan untuk menemukan resource manager yang sesuai untuk digunakan pada klaster komputasi yang memiliki GPU agar dapat meningkatkan efisiensi, implementasi sistem monitoring yang dapat membantu analisis penggunaan sumber daya sekaligus monitoring proses komputasi yang sedang dijalankan pada klaster, dan melayani inference untuk model machine learning. Penelitian dilakukan dengan cara menjalankan eksperimen penggunaan Slurm dan Kubernetes. Hasil yang diperoleh adalah Slurm dapat memenuhi kebutuhan untuk job scheduling dan mengatur penggunaan GPU dan resources lainnya pada klaster dapat digunakan oleh banyak pengguna sekaligus. Sedangkan untuk sistem monitoring, sistem yang dipilih adalah Prometheus, Grafana, dan Open OnDemand. Sementara itu, sistem yang digunakan untuk inference model adalah Flask dan Docker Kata kunci: cluster computing, high performance computing, scheduler, workload manager