What is ETL ?

Mursyied Qathafi
2 min readMar 22, 2022

--

In the Data is familiar with ETL , ETL is ( Extract, Transform, Load ). Oke mari kita bedah satu”.

  1. Extract is the first stage involve data from source system
  2. Transform is scaling different format to a simple data model
  3. Load is the final target database from warehouse

Who is an ETL Developer ?

ETL developer is an IT specialess and software engineer manages and oversees the process of extracting, Tranformating, and loading datasets into a data warehouse it means concept, Architecture and components

ETL Developer ‘s Responsibilities ?

ETL developer is collect data and tranformat to easely manage performs to manage. Jobdesk for ETL :

  1. Analyzing and identifying data storage requirements
  2. Designing and building A Data Warehouse
  3. Building reliable data pipelines
  4. Completing the ETL process
  5. Testing and troubleshooting
  6. Maintaining and debugging

ETL Developer’s Skill

ETL tools for simple data cleaning and processing data from different source

  1. SQL knowledge
  2. Data Modeling, How to data transform to ETL Language
  3. Scripting Language, You must familiar with python, Perl, Bash
  4. Organization
  5. Creativity

Apache Kafka

Kafka is a distributed streaming platform

  1. Published and subscribe
  1. Process
  2. Store

Berikut ini adalah beberapa terminologi penting pada Apache Kafka:

  • Producer merupakan proses atau sistem yang dapat mempublikasikan data ke suatu topik.
  • Consumer merupakan proses atau sistem yang dapat melakukan subscription ke satu atau lebih topik dan mengolah data-data dari topik tersebut.
  • Topic merupakan nama dari sebuah feed dimana pesan/data di-
  • Broker merupakan instance Apache Kafka yang berjalan di satu mesin.
  • Cluster merupakan kelompok dari broker-broker yang saling bekerjasama.
  • Partition merupakan pengelompokkan data topic yang dipecah menjadi bagian-bagian kecil. Misalnya, suatu topik menyimpan informasi user login, maka data-data pada topik dapat dibagi bedasarkan huruf awal dari username.
  • Offset merupakan array index yang digunakan oleh Apache Kafka sebagai unique identifier untuk setiap data pada satu partisi.

--

--