[5/6] TIL - 데이터 웨어하우스, 데이터 레이크, ETL, Airflow, 다양한 DW 옵션

Sangwon Jwa·2024년 5월 6일

데브코스

데브코스 TIL

목록 보기

26/54

📖 학습 주제

데이터 웨어하우스

ETL

데이터 레이크

Airflow

데이터 웨어하우스 옵션

✏️ 주요 메모 사항 소개

데이터 웨어하우스

데이터 조직의 비전은 신뢰할 수 있는 데이터를 바탕으로 부가 가치를 생성하는 것이다. 고품질 데이터를 기반으로 의사 결졍권자에게 입력을 제공하여 사용자 서비스 경험을 개선하거나 프로세스를 최적화하는데 의의가 있다. 데이터 엔지니어는 데이터 분석에서 사용할 수 있는 데이터 웨어하우스와 같은 데이터 인프라를 구축하는 역할을 갖는다.

데이터 웨어하우스란 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스로 실제 서비스에 사용하는 프로덕션용 데이터베이스와 별개의 데이터베이스로 만들어야 한다. 데이터의 크기에 맞게 어떤 데이터베이스를 사용할 지 선택하고, 만약 크기가 커진다면 다음 중 하나를 고려해볼 수 있다.

AWS Redshift, 구글 클라우드의 Big Query
Snowflake
오픈 소스 기반의 하둡(Hive/Presto)/Spark

ETL(Extract, Transform, Load)

다른 곳에 존재하는 데이터를 가져다가 데이터 웨어하우스에 로드하는 작업. 이 일련의 작업을 데이터 파이프라인이라고 부르기도 함

Extract : 외부 데이터 소스에서 데이터를 추출
Transform : 데이터의 포맷을 원하는 형태로 변환
Load : 변환된 데이터를 최종적으로 데이터 웨어하우스로 적재

관련하여 가장 많이 사용하는 프레임워크는 Airflow이다. Airflow는 오픈소스 프로젝트로 Python3 기반이며 AWS와 구글 클라우드에서도 지원한다.
ETL 관련 SaaS(Software as a Service)도 출현으로 흔한 데이터 소스의 경우 FiveTran, Stitch Data와 같은 SaaS를 사용하는 것도 가능하다.

데이터 레이크

구조화 데이터 + 비구조화 데이터 (로그파일), 보존 기한이 없는 모든 데이터를 원래 형태대로 보존하는 스토리지에 가까움. 보통은 데이터 웨어하우스보다 몇배는 더 크고 더 경제적인 스토리지로, 보통 클라우드 스토리지가 됨. (AWS의 S3가 대표적인 Data Lake) 데이터 레이크가 있는 환경에서 ETL과 ELT 란

ETL : DW, DL 바깥에서 안으로 데이터를 가져오는 것

ELT : DW, DL 안에 있는 데이터를 처리하는 것

Airflow

ETL 관리 및 운영 프레임워크의 필요성이 커지면서 ETL 스케줄러라는 것이 등장했다. 다수의 ETL이 존재할 경우 이를 스케줄해주고 이들관의 의존관계(dependency)를 정의해주는 기능을 수행하고, 특정 ETL이 실패할 경우 이에 관한 에러 메시지를 받고 재실행해주는 기능도 중요해졌다. (Backfill)

현재 가장 많이 사용되는 프레임워크는 Airflow이다. Python3 기반의 오픈 소스 프로젝트로 많은 회사에서 사용 중이다. AWS, 구글 클라우드, Azure에서도 지원을 하고 있다.

Airflow에서는 ETL을 DAG라 부르며 웹 인터페이스를 통한 관리 기능을 제공한다. 크게 스케줄러, 웹서버, 워커(Worker) 3가지 컴포넌트로 구성된다.

이런 툴을 이용하여 데이터 웨어하우스를 구성한다면 다음과 같은 예를 들 수 있다.