ETL Process

Taehyeon Kim·2025년 8월 20일

Data Engineering

목록 보기
1/1

1. ETL Process란?

정의

데이터 소스에서 데이터를 추출하여, 필요에 따라 변환 과정을 수행해 데이터 웨어하우스에 적재하는 일련의 작업, 절차.

일반적으로 파이프라인의 형태로 구현되어 자동화하는 것을 목표로 함.

왜 ETL을 쓰나요?

  • 데이터 신뢰성 보장
  • 작업 자동화
  • 데이터 통합
  • 컨텍스트 기록

2. E, T, L

Extract

소스 데이터베이스에서 데이터를 추출
원시적인 데이터 소스 모두. 웹페이지, DB, File, APIs 등

Transform

추출한 데이터를 분석에 더 적합한 형태로 변환
여기서는

  • 전처리
  • 중복 데이터 제거
  • 결측값 제거
  • 형식 수정

등을 통해 무결성/정합성을 높임

Load

데이터를 대상 데이터베이스에 적재
파이프라인이 구성되면 배치 단위로 데이터를 데이터 웨어하우스에 적재함


3. ETL을 배우며

어디까지 E, T, L인가?

왜 E, T, L이 구별되었을까?

  • Extract -> Network I/O 동반 I/O Bound 작업
  • Transform -> 주어진 데이터에 대한 CPU Bound 작업

작업의 성격에 맞는 자원을 할당하기 위해서 스테이지가 나누어졌다.
-> 주어진 자원과 작업의 성격에 따라 나누어야 할 문제

Extract는 Network 작업이 많은데 Transform에서 나중에 필요한 데이터를 잘라버리면 또 해야겠네? 비용이 매우 크겠다.

-> ELT 개념이 등장하는 이유

profile
마음에 들 때까지

0개의 댓글