What is ETL ?
2 min readMar 22, 2022
In the Data is familiar with ETL , ETL is ( Extract, Transform, Load ). Oke mari kita bedah satu”.
- Extract is the first stage involve data from source system
- Transform is scaling different format to a simple data model
- Load is the final target database from warehouse
Who is an ETL Developer ?
ETL developer is an IT specialess and software engineer manages and oversees the process of extracting, Tranformating, and loading datasets into a data warehouse it means concept, Architecture and components
ETL Developer ‘s Responsibilities ?
ETL developer is collect data and tranformat to easely manage performs to manage. Jobdesk for ETL :
- Analyzing and identifying data storage requirements
- Designing and building A Data Warehouse
- Building reliable data pipelines
- Completing the ETL process
- Testing and troubleshooting
- Maintaining and debugging
ETL Developer’s Skill
ETL tools for simple data cleaning and processing data from different source
- SQL knowledge
- Data Modeling, How to data transform to ETL Language
- Scripting Language, You must familiar with python, Perl, Bash
- Organization
- Creativity
Apache Kafka
Kafka is a distributed streaming platform
- Published and subscribe
- Process
- Store
Berikut ini adalah beberapa terminologi penting pada Apache Kafka:
- Producer merupakan proses atau sistem yang dapat mempublikasikan data ke suatu topik.
- Consumer merupakan proses atau sistem yang dapat melakukan subscription ke satu atau lebih topik dan mengolah data-data dari topik tersebut.
- Topic merupakan nama dari sebuah feed dimana pesan/data di-
- Broker merupakan instance Apache Kafka yang berjalan di satu mesin.
- Cluster merupakan kelompok dari broker-broker yang saling bekerjasama.
- Partition merupakan pengelompokkan data topic yang dipecah menjadi bagian-bagian kecil. Misalnya, suatu topik menyimpan informasi user login, maka data-data pada topik dapat dibagi bedasarkan huruf awal dari username.
- Offset merupakan array index yang digunakan oleh Apache Kafka sebagai unique identifier untuk setiap data pada satu partisi.