[프로그래머스 데브코스] 좋은 지표 설정하기(1) 데이터 웨어하우스, 데이터 레이크, ETL/ELT

bucket ·2024년 1월 22일
0
post-thumbnail

1. ETL/ELT

1. 데이터 레이크

  • 데이터 레이크 : 구조화 데이터 + 비구조화 데이터
  • 보존 기한이 없는 모든 데이터를 원래 형태대로 보존하는 스토리지에 가까움 (컴퓨팅 파워가 있는 것이 아님)
  • ETL
    • 데이터 레이크와 웨어하우스 바깥에서 안으로 데이터를 가져오는 것
    • 회사의 성장에 따라 갯수가 많아진다.
    • Airflow가 대표적인 프레임워크
    • 데이터 엔지니어링
  • ELT : 데이터 레이크와 웨어하우스 안에 있는 데이터를 처리하는 것
    • 다양한 데이터 소스에 있는 데이터를 읽거나 정리, 요약
    • 주기적으로 요약 테이블을 만드는 것이 효율적이다. (dbt)
    • 데이터 분석가

2. 데이터 웨어하우스 구성 예시

3. 빅데이터 처리 프레임워크

  • 분산 환경 기반 -> 다수의 분산 컴퓨팅 시스템, 파일 시스템

  • 소수의 서버가 고장나도 시스템이 동작해야 함

  • 확장이 용이해야함

  • 1세대 : hive/presto

  • 2세대 : spark( SQL, DataFrame, Streaming, ML, Graph)

2. 데이터 웨어하우스 옵션

1. 데이터 웨어하우스 옵션

Iceberg를 제외하고 모두 SQL을 지원하는 빅데이터 기반의 데이터베이스

2. snowflake

  • 데이터 클라우드라고 부를 수 있을 정도로 발전
  • Data sharing/market place 제공 -> 데이터 판매를 통한 매출을 가능
  • SQL 기반
  • 다양한 데이터 포맷 지원
  • 실시간 데이터 처리 지원
  • 콘솔 관리/제어 가능
  • API를 통한 관리/제어 가능

3.실리콘밸리 회사들의 데이터 스택 트렌드

1. 데이터 플랫폼의 발전 단계

  • 초기 : 데이터 웨어하우스 + ETL
  • 발전 : 데이터 양 증가
    -> 빅데이터 처리 시스템 (spark) 도입, 데이터 레이크 도입
  • 성숙 : 데이터 활용 증대
    -> 데이터 활용의 가속화 단계로 ELT 단계가 중요해지며 분석, analytics engineering(dbt), 머신러닝 관련 노력 증대

2. 회사 별 데이터 스택 비교

redshift, warehouse, bigquery 등이 가장 많이 사용된다.

3. 데이터 파이프라인이란

  • 데이터를 소스로부터 목적지로 복사하는 작업

    • 파이썬 혹은 스칼라 혹은 SQL
    • 목적지는 데이터 웨어하우스, 캐시 시스템 등이 될 수 있다.
  • 종류

    • raw data ETL
    • summary/report jobs ETL
    • production data jobs ETL

0개의 댓글