ABSTRAK
Nama Penulis 1 / Program Studi : Billy Vande Yohannes / Ilmu Komputer
Nama Penulis 2 / Program Studi : Hakim Amarullah / Ilmu Komputer
Nama Penulis 3 / Program Studi : Muhammad Anis Abdul Aziz / Sistem Informasi
Judul : Pengembangan Dashboard dan Analysis Tools untuk Infra-
struktur Machine Learning Fakultas Ilmu Komputer Univer-
sitas Indonesia
Pembimbing : Ari Wibisono, S.Kom., M.Kom
Dr. Rizal Fathoni Aji, S.Kom., M.Kom
Proses training model membutuhkan sumber daya komputasi yang akan terus meningkat
seiring dengan bertambahnya jumlah data dan jumlah iterasi yang telah dicapai. Hal
ini dapat menimbulkan masalah ketika proses training model dilakukan pada lingkungan
komputasi yang berbagi sumber daya seperti pada infrastruktur komputasi berbasis
klaster. Masalah yang ditimbulkan terutama terkait dengan efisiensi, konkurensi, dan
tingkat utilisasi sumber daya komputasi. Persoalan efisiensi muncul ketika sumber daya
komputasi telah tersedia, tetapi belum mencukupi untuk kebutuhan job pada antrian ter-
atas. Akibatnya sumber daya komputasi tersebut menganggur. Penggunaan sumber daya
tersebut menjadi tidak efisien karena terdapat kemungkinan sumber daya tersebut cukup
untuk mengeksekusi job lain pada antrian. Selain itu, pada cluster computing juga mem-
butuhkan sistem monitoring untuk mengawasi dan menganalisis penggunaan sumber daya
pada klaster. Penelitian ini bertujuan untuk menemukan resource manager yang sesuai
untuk digunakan pada klaster komputasi yang memiliki GPU agar dapat meningkatkan
efisiensi, implementasi sistem monitoring yang dapat membantu analisis penggunaan
sumber daya sekaligus monitoring proses komputasi yang sedang dijalankan pada klaster,
dan melayani inference untuk model machine learning. Penelitian dilakukan dengan cara
menjalankan eksperimen penggunaan Slurm dan Kubernetes. Hasil yang diperoleh adalah
Slurm dapat memenuhi kebutuhan untuk job scheduling dan mengatur penggunaan GPU
dan resources lainnya pada klaster dapat digunakan oleh banyak pengguna sekaligus.
Sedangkan untuk sistem monitoring, sistem yang dipilih adalah Prometheus, Grafana, dan
Open OnDemand. Sementara itu, sistem yang digunakan untuk inference model adalah
Flask dan Docker
Kata kunci:
cluster computing, high performance computing, scheduler, workload manager
|
|