DW(DataWarehouse) vs DL(DataLake) vs DM(DataMart)

2DH·2023년 7월 25일
0
🔑 `DataLake` vs `DatawareHouse` vs `DataMart`

Data Warehouse


  • Data source 에서 데이터를 수집하여 주제에 맞게 조합하여 저장 해놓는 공간
  • 도매점에서 소매점인 소비자에게 가기 전 단계
  • 데이터 저장 전 부터 데이터 스키마가 존재하고 구조화 됨.
  • 보안성이 높다.
  • 과거 DataSource -> Data Consumer로 M * M 개의 데이터 연결로 구성되던거를 DW를 구성함으로서 새로운 Consumer가 늘어날때마다 발생하는 비용을 줄일 수 있었다.

Data Lake


  • Data source 부터 구조 없이 쌓아 놓는다.
  • 중복을 허용한다.
  • 다양한 형태의 데이터를 보관한다.
  • Catalog 라는 개념이 필요
    • Data가 어디에 어떤 구조로 있는지를 파악하고 있어야 사용이 가능하다
    • 구성되어 있지 않다면 데이터 늪이라고 표현되어 데이터 사용이 불가능해진다.
  • DL = DW + Unstructured Data(사진/동영상/문서 등) + Streaming Data
    - 스키마가 없고 다양한 시각에서 분석이 가능하다.
    - ETL -> ELT 로 패러다임이 변경하는 이유.
데이터 레이크(DataLake)데이터 웨어하우스(Data Warehouse)
데이터 형태원시 데이터(Raw Data)가공 데이터(Processed Data)
활용 목적축적할 때는 알 수 없음 사용할 때 결정됨.데이터 활용 요구에 맞게 축적함 축적할 때 알고 있음
주요 사용자데이터 사이언티스트업무 기획 담당자
적용 기술쉽게 접근할 수 있고 빠르게 업데이트할 수 있음전용 도구(ETL)를 사용하여 축적 복잡하고 비용이 많이 듬

Data Mart


  • 사용자가 사용하기 직전에 형태로 쌓아 놓는 공간(속도가 향상)
  • 소매점이라고 생각하면 됨.

Summary


  • 요즘 트랜드상으론 DW 구성을 하지 않고 DL에서 DM으로 필요할때 마다 데이터를 변환하여 사용.
  • 즉, S3에 데이터를 저장 해놓고 사용자의 요청에 따라 Glue 또는 EMR 등 데이터 처리 서비스를 활용하여 데이터 변환.
  • 하지만 정형화된 데이터를 분석, 활용하는 것에 있어서는 DW가 DL보다 활용도가 높다.

참조

https://www.databricks.com/kr/glossary/unified-data-warehouse
https://vitalflux.com/data-lake-design-principles-best-practices/
https://turingears.com/que-es-un-datamart/

profile
Becoming the Data Engineer

0개의 댓글