[ Data ] Data Warehouse, Mart, Lake

6eom9eun·2024년 4월 6일

Data

목록 보기
4/4

Data Warehouse

  • 의사 결정을 위해 다양한 소스의 데이터를 분석 가능하고 구조화된 형식으로 저장하는 중앙 저장소
  • 구조화된 데이터, 정형 데이터를 담는 레포지토리
  • 대량의 데이터를 장기 보관
  • ETL 작업을 통해 여러 소스로부터 가져온 데이터를 테이블화
  • 배치 작업을 통해 대량 쓰기
  • 다양한 소스에서 필요한 데이터를 수정, 정제, 가공, 집계해서 저장하는 곳으로 데이터 레이크와의 차이점을 보인다. for analysis & reporting

Data Mart

  • DW가 중앙 집중식으로 여러 분야의 데이터를 담고 있다면, DM은 특정 분야의 데이터를 정제, 집계해서 따로 담고 있는 레포지토리
  • 소수의 소스 or DW로부터 ETL(Extract-Transform-Load)프로세싱하여 구성
  • DW보다 최종 사용자에 가까운 데이터
  • 용도에 따라 나누어 놓고 OLAP 작업을 통해 BI(Business Intelligence)를 실현
    • OLAP
      • 사용자가 대화형 쿼리를 통해 다차원 데이터 분석을 하고 이를 의사결정에 참고하는 과정 또는 그러한 과정에 사용하는 DB 엔진
      • 주로 읽기 관련 워크로드
      • 분석을 위해 따로 만들어진 다수의 다차원 데이터(OLAP cube)를 aggregate & query
  • 최종 사용자가 필요로 하는 속성을 갖고 있는 작은 데이터의 집합

Data Lake

  • DW와 달리 정형, 비정형 데이터를 모두 저장하는 레포지토리
    • 일단 저장하고, 필요할 때 꺼내서 사용 : 정의된 목적이 없는, 정형화나 정규화를 하지 않고 원시 데이터를 그대로 저장
  • DB 보단 대용량 분산 스토리지에 저장(S3, HDFS 등)
  • not table / no schema / schema on read
  • ELT(Extract-Load-Transform)의 중간 저장소 역할 수행

profile
Dev learnnnnnN.......

0개의 댓글