1. ETL/ELT
1. 데이터 레이크

- 데이터 레이크 : 구조화 데이터 + 비구조화 데이터
- 보존 기한이 없는 모든 데이터를 원래 형태대로 보존하는 스토리지에 가까움 (컴퓨팅 파워가 있는 것이 아님)
- ETL
- 데이터 레이크와 웨어하우스 바깥에서 안으로 데이터를 가져오는 것
- 회사의 성장에 따라 갯수가 많아진다.
- Airflow가 대표적인 프레임워크
- 데이터 엔지니어링
- ELT : 데이터 레이크와 웨어하우스 안에 있는 데이터를 처리하는 것
- 다양한 데이터 소스에 있는 데이터를 읽거나 정리, 요약
- 주기적으로 요약 테이블을 만드는 것이 효율적이다. (dbt)
- 데이터 분석가
2. 데이터 웨어하우스 구성 예시

3. 빅데이터 처리 프레임워크

-
분산 환경 기반 -> 다수의 분산 컴퓨팅 시스템, 파일 시스템
-
소수의 서버가 고장나도 시스템이 동작해야 함
-
확장이 용이해야함

-
1세대 : hive/presto
-
2세대 : spark( SQL, DataFrame, Streaming, ML, Graph)
2. 데이터 웨어하우스 옵션
1. 데이터 웨어하우스 옵션

Iceberg를 제외하고 모두 SQL을 지원하는 빅데이터 기반의 데이터베이스
2. snowflake
- 데이터 클라우드라고 부를 수 있을 정도로 발전
- Data sharing/market place 제공 -> 데이터 판매를 통한 매출을 가능
- SQL 기반
- 다양한 데이터 포맷 지원
- 실시간 데이터 처리 지원
- 콘솔 관리/제어 가능
- API를 통한 관리/제어 가능
3.실리콘밸리 회사들의 데이터 스택 트렌드
1. 데이터 플랫폼의 발전 단계
- 초기 : 데이터 웨어하우스 + ETL
- 발전 : 데이터 양 증가
-> 빅데이터 처리 시스템 (spark) 도입, 데이터 레이크 도입
- 성숙 : 데이터 활용 증대
-> 데이터 활용의 가속화 단계로 ELT 단계가 중요해지며 분석, analytics engineering(dbt), 머신러닝 관련 노력 증대
2. 회사 별 데이터 스택 비교

redshift, warehouse, bigquery 등이 가장 많이 사용된다.
3. 데이터 파이프라인이란
-
데이터를 소스로부터 목적지로 복사하는 작업
- 파이썬 혹은 스칼라 혹은 SQL
- 목적지는 데이터 웨어하우스, 캐시 시스템 등이 될 수 있다.
-
종류
- raw data ETL
- summary/report jobs ETL
- production data jobs ETL
