Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number T-1254 Softcopy T-962
Collection Type Tesis
Title Multi Node Clustering Algorithm Using MapReduce in Distributed Hadoop Environment
Author Hadian Mandala Putra;
Publisher Depok: Fasilkom UI, 2020
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
T-1254 Softcopy T-962 TERSEDIA
Tidak ada review pada koleksi ini: 48049
ABSTRAK Nama : Hadian Mandala Putra Program Studi : Magister Ilmu Komputer Judul : Algoritma Klastering Multi Node Menggunakan Mapreduce pada Lingkungan Terdistribusi Hadoop Data Besar (Big Data) adalah suatu kumpulan data dengan ukuran besar dan komplek, terdiri dari berbagai tipe data serta dapat diperoleh dari berbagai macam sumber dan berkembang pesat dalam waktu yang singkat. Salah satu permasalahan pada data besar yaitu terkait dengan penyimpanan, pengaksesan serta pengolahan data besar terkait ukuran data dengan berbagai tipe data, serta kompleksitas tinggi tidak mampu lagi ditangani oleh model relasional yang berbasis relasi baris dan kolom. Oleh karena itu, untuk efisiensi waktu dalam pengolahan serta analisis data besar diperlukan manajemen penyimpanan yang tepat yaitu menggunakan teknologi yang mampu menangani data besar, salah satunya Hadoop. Hadoop adalah teknologi penyimpanan dan pemrosesan data besar dengan cara mendistribusikan data kedalam beberapa partisi data (cluster). Masalah timbul apabila suatu proses analisis dan memerlukan seluruh data yang tersebar sebagai satu entitas data, misalnya pada proses pembuatan klaster data (clustering). Salah satu alternatif penyelesaiannya adalah dengan melakukan proses analisis secara paralel dan tersebar, kemudian melakukan analisis terpusat dari hasil-hasil analisis tersebar. Dalam penelitian ini, algoritma K-Means yang dieksekusi secara paralel pada dataset yang disimpan secara terdistribusi pada Hadoop cluster (terdiri dari beberapa mesin). Hadoop mempunyai fitur mapreduce, terdiri dari 2 fungsi yaitu fungsi map dan fungsi reduce. Fungsi map melakukan seleksi untuk mengambil pasangan (key, value) dan memberikan hasil berupa koleksi pasangan (key, value), sedangkan fungsi reduce mengurangi pasangan (key value) yang serupa dan menggabungkan keseluruhan pasangan (key, value) dari beberapa fungsi map. Algoritma K-Means dijalankan pada tiap mesin untuk mendapatkan jumlah klaster yang baik dan hasil klaster pada setiap mesin digabungkan menjadi satu kesatuan untuk menentukan jumlah seluruh klaster dari dataset. Hasil evaluasi diuji dengan membandingkan algoritma Parallel K-Means dengan algoritma K-Medoids mapreduce dengan beberapa algoritma lainnya secara terpusat (K-Means, K-Modes) dan menggunakan metrik pengujian Silhouette Coefficient. Algoritma Parallel K-Means menunjukkan hasil yang terbaik diantara algoritma pembanding, dengan nilai silhouette coefficient pada dataset employee, car dan flights sebesar 0.71, 0.99 dan 0.63 dengan jumlah klaster adalah 3,4, dan 2 klaster. Selain itu, Algoritma Parallel K-Means dapat menampilkan waktu eksekusi terbaik terhadap keseluruhan dataset dibandingkan dengan algoritma pembanding. Kata Kunci: Data Besar, Hadoop, Mapreduce, Clustering.