🔑 `DataLake` vs `DatawareHouse` vs `DataMart`
Data Warehouse
- Data source 에서 데이터를 수집하여 주제에 맞게 조합하여 저장 해놓는 공간
- 도매점에서 소매점인 소비자에게 가기 전 단계
- 데이터 저장 전 부터 데이터 스키마가 존재하고 구조화 됨.
- 보안성이 높다.
- 과거 DataSource -> Data Consumer로 M * M 개의 데이터 연결로 구성되던거를 DW를 구성함으로서 새로운 Consumer가 늘어날때마다 발생하는 비용을 줄일 수 있었다.
Data Lake
- Data source 부터 구조 없이 쌓아 놓는다.
- 중복을 허용한다.
- 다양한 형태의 데이터를 보관한다.
- Catalog 라는 개념이 필요
- Data가 어디에 어떤 구조로 있는지를 파악하고 있어야 사용이 가능하다
- 구성되어 있지 않다면 데이터 늪이라고 표현되어 데이터 사용이 불가능해진다.
- DL = DW + Unstructured Data(사진/동영상/문서 등) + Streaming Data
- 스키마가 없고 다양한 시각에서 분석이 가능하다.
- ETL -> ELT 로 패러다임이 변경하는 이유.
| 데이터 레이크(DataLake) | 데이터 웨어하우스(Data Warehouse) |
---|
데이터 형태 | 원시 데이터(Raw Data) | 가공 데이터(Processed Data) |
활용 목적 | 축적할 때는 알 수 없음 사용할 때 결정됨. | 데이터 활용 요구에 맞게 축적함 축적할 때 알고 있음 |
주요 사용자 | 데이터 사이언티스트 | 업무 기획 담당자 |
적용 기술 | 쉽게 접근할 수 있고 빠르게 업데이트할 수 있음 | 전용 도구(ETL)를 사용하여 축적 복잡하고 비용이 많이 듬 |
Data Mart
- 사용자가 사용하기 직전에 형태로 쌓아 놓는 공간(속도가 향상)
- 소매점이라고 생각하면 됨.
Summary
- 요즘 트랜드상으론 DW 구성을 하지 않고 DL에서 DM으로 필요할때 마다 데이터를 변환하여 사용.
- 즉, S3에 데이터를 저장 해놓고 사용자의 요청에 따라 Glue 또는 EMR 등 데이터 처리 서비스를 활용하여 데이터 변환.
- 하지만 정형화된 데이터를 분석, 활용하는 것에 있어서는 DW가 DL보다 활용도가 높다.
참조
https://www.databricks.com/kr/glossary/unified-data-warehouse
https://vitalflux.com/data-lake-design-principles-best-practices/
https://turingears.com/que-es-un-datamart/