DL vs DW vs DM

seongcheollee·2024년 2월 2일
0

Data Engineer CS

목록 보기
2/3

정의

Data Lake

데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소. 데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있음.

Data WareHouse

데이터 웨어하우스는 여러 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 시스템. 데이터 웨어하우스는 임시 분석과 커스텀 보고서 생성에 적합합니다.

Data Mart

데이터 마트는 단일 주제 또는 LOB(Line-of-Business)에 초점을 맞춘 단순한 형태의 데이터 웨어하우스
기업 내 특정 팀 또는 LOB가 요청한 데이터에 대한 보다 손쉬운 액세스를 제공
데이터 마트를 사용해 데이터에 빠르게 액세스하고, 인사이트를 신속히 얻을 수 있음


Data WareHouse, Data Lake 차이

데이터 저장 방식

Data Lake : 구조화되지 않은 Raw Data 형식으로 무기한 저장
Data Warehouse : 사전 정의된 비즈니스 요구사항 기반으로 전략적 분석이 가능한 정재 및 처리된 구조화 데이터 저장

사용자

Data Lake : 대량의 비정형 데이터를 통해 새로운 Insight를 얻기 위해 데이터를 연구하는 데이터 과학자 혹은 엔지니어가 사용
Data Warehouse : 일반적으로 비즈니스 KPI에서 Insight를 얻으려는 관리자와 비즈니스 최종 사용자가 사용

분석

Data Lake : Predictive analytics, machine learning, data visualization, BI, big data analytics.
Data Warehouse : Data visualization, BI, data analytics.

스키마

Data Lake : 비정형 데이터를 저장하기 위해서 Schema 정의하지 않고 ETL 과정에서 Schema 정의하는 "Schema on Read"
Data Warehouse : 비즈니스 요구사항 기반으로 정형화된 데이터를 저장하기위해 Schema 정의 및 저장할 때 Scheam를 정의하는 "Schema on Write"

처리

Data Lake : Raw Data를 바로 저장 및 필요시 ETL 과정에서 Schema 정의 ("Schema on Read")
Data Warehouse : 저장하는 과정해서 ETL를 통한 Schema 정의 ("Schema on Write")

비용

Data Lake : Storage cost가 낮을 뿐만 아니라, 관리하는 cost가 낮음
Data Warehouse : Storage cost가 높을 뿐만 아니라, 관리하는 cost도 높음


Data Mart 를 따로 구축하는 이유

  1. 불필요하게 많은 양의 데이터를 조회할 필요가 없기 때문에 데이터 조회 성능 향상
  1. Data Warehouse는 3정규화까지 구현한 방식으로 설계 되기 때문에 Data Mart에 비해서 데이터를 조회하는 쿼리가 더 복잡함
  1. 전사 단위의 Data Warehouse를 구축하는 것보다 비용이나 시간을 훨씬 절약 가능 (데이터 웨어하우스의 구축 없이 데이터마트만 구축하는 경우 해당)
  1. Data Mart는 일반적으로 전사의 모든 영역을 아우르는 Data Warehouse에 비해 규모가 작은 특정 분야에 집중하고 있기 때문에 해당 분야에 대한 전문성만 갖추고 있다면 구축하는 것이 용이
  1. Data Mart가 위치해 있는 곳을 Data Warehouse와 물리적으로 분리 시켜서 운영하는 것이 가능하고 권한 관리도 별도로 설정 가능

Data Mart 의 종류

  1. 종속 데이터 마트 : 데이터 웨어하우스에서 데이터 일부를 추출해서 구축
  2. 독립 데이터 마트 : 데이터 웨어하우스 구축 없이 직접 데이터를 가져와서 구축
  3. 복합 데이터 마트 : 데이터 웨어하우스, 직접적으로 가져온 데이터를 추출해서 구축

0개의 댓글