ETL은 데이터베이스(DB)나 데이터 웨어하우스에서 자주 사용하는 데이터 처리 작업으로, 다음 세 가지 단계로 구성
-
E (Extract, 추출)
- 여러 출처(예: 다른 DB, API, 엑셀 파일 등)에서 데이터를 가져오는 단계예요.
-
T (Transform, 변환)
- 추출한 데이터를 원하는 형태로 가공하거나 정리하는 단계예요.
- 예: 날짜 형식 통일, 누락된 값 처리, 데이터 필터링 등.
-
L (Load, 적재)
- 변환한 데이터를 목적지(예: 데이터베이스, 데이터 웨어하우스)에 저장하는 단계예요.
예를 들어:
- 판매 시스템 DB에서 주문 데이터를 추출(Extract)
- 날짜 형식을
YYYY-MM-DD로 통일하고, 결제된 주문만 필터링(Transform)
- 분석용 데이터 웨어하우스에 저장(Load)
이런 식으로 데이터 흐름을 자동화하는 것이 ETL