ABSTRAK
Nama : I Putu Medagia Atmaja
Program Studi : Sistem Informasi
Judul : Penerapan Change Data Capture pada Proses ETL untuk
Data Warehouse Menggunakan HDFS dan Apache Spark
Pertambahan jumlah record pada sumber data mengakibatkan terjadinya peningkatan
waktu proses ETL untuk sistem data warehouse. Kondisi ini terjadi akibat
dari proses ETL yang tidak efisien dengan menggunakan metode full load yang
menyebabkan setiap proses ETL harus mengolah data sejumlah record pada sumber
data seperti yang terjadi pada sistem data warehouse Learning Analytics Universitas
Indonesia. Penelitian ini bertujuan untuk mengurangi peningkatan waktu proses
ETL dan membuatnya menjadi lebih efisien dengan menerapkan metode Change
Data Capture (CDC) dalam distributed system menggunakan HDFS dan Apache
Spark. Hasilnya, rancangan model ETL dengan penerapan metode CDC menggunakan
HDFS dan Apache Spark mampu mengurangi jumlah data pada proses ETL
yang membuat prosesnya menjadi lebih efisien serta waktu proses ETL menjadi
lebih cepat.
Kata Kunci:
change data capture, data warehouse, distributed system, etl
|
|