[ Data ] Data Warehouse, Mart, Lake
Data Warehouse
- 의사 결정을 위해 다양한 소스의 데이터를 분석 가능하고 구조화된 형식으로 저장하는 중앙 저장소
- 구조화된 데이터, 정형 데이터를 담는 레포지토리
- 대량의 데이터를 장기 보관
- ETL 작업을 통해 여러 소스로부터 가져온 데이터를 테이블화
- 배치 작업을 통해 대량 쓰기
- 다양한 소스에서 필요한 데이터를 수정, 정제, 가공, 집계해서 저장하는 곳으로 데이터 레이크와의 차이점을 보인다. for analysis & reporting
Data Mart
- DW가 중앙 집중식으로 여러 분야의 데이터를 담고 있다면, DM은 특정 분야의 데이터를 정제, 집계해서 따로 담고 있는 레포지토리
- 소수의 소스 or DW로부터 ETL(Extract-Transform-Load)프로세싱하여 구성
- DW보다 최종 사용자에 가까운 데이터
- 용도에 따라 나누어 놓고 OLAP 작업을 통해 BI(Business Intelligence)를 실현
- OLAP
- 사용자가 대화형 쿼리를 통해 다차원 데이터 분석을 하고 이를 의사결정에 참고하는 과정 또는 그러한 과정에 사용하는 DB 엔진
- 주로 읽기 관련 워크로드
- 분석을 위해 따로 만들어진 다수의 다차원 데이터(OLAP cube)를 aggregate & query
- 최종 사용자가 필요로 하는 속성을 갖고 있는 작은 데이터의 집합
Data Lake
- DW와 달리 정형, 비정형 데이터를 모두 저장하는 레포지토리
- 일단 저장하고, 필요할 때 꺼내서 사용 : 정의된 목적이 없는, 정형화나 정규화를 하지 않고 원시 데이터를 그대로 저장
- DB 보단 대용량 분산 스토리지에 저장(S3, HDFS 등)
- not table / no schema / schema on read
- ELT(Extract-Load-Transform)의 중간 저장소 역할 수행