
데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소. 데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있음.
데이터 웨어하우스는 여러 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 시스템. 데이터 웨어하우스는 임시 분석과 커스텀 보고서 생성에 적합합니다.
데이터 마트는 단일 주제 또는 LOB(Line-of-Business)에 초점을 맞춘 단순한 형태의 데이터 웨어하우스
기업 내 특정 팀 또는 LOB가 요청한 데이터에 대한 보다 손쉬운 액세스를 제공
데이터 마트를 사용해 데이터에 빠르게 액세스하고, 인사이트를 신속히 얻을 수 있음
Data Lake : 구조화되지 않은 Raw Data 형식으로 무기한 저장
Data Warehouse : 사전 정의된 비즈니스 요구사항 기반으로 전략적 분석이 가능한 정재 및 처리된 구조화 데이터 저장
Data Lake : 대량의 비정형 데이터를 통해 새로운 Insight를 얻기 위해 데이터를 연구하는 데이터 과학자 혹은 엔지니어가 사용
Data Warehouse : 일반적으로 비즈니스 KPI에서 Insight를 얻으려는 관리자와 비즈니스 최종 사용자가 사용
Data Lake : Predictive analytics, machine learning, data visualization, BI, big data analytics.
Data Warehouse : Data visualization, BI, data analytics.
Data Lake : 비정형 데이터를 저장하기 위해서 Schema 정의하지 않고 ETL 과정에서 Schema 정의하는 "Schema on Read"
Data Warehouse : 비즈니스 요구사항 기반으로 정형화된 데이터를 저장하기위해 Schema 정의 및 저장할 때 Scheam를 정의하는 "Schema on Write"
Data Lake : Raw Data를 바로 저장 및 필요시 ETL 과정에서 Schema 정의 ("Schema on Read")
Data Warehouse : 저장하는 과정해서 ETL를 통한 Schema 정의 ("Schema on Write")
Data Lake : Storage cost가 낮을 뿐만 아니라, 관리하는 cost가 낮음
Data Warehouse : Storage cost가 높을 뿐만 아니라, 관리하는 cost도 높음
- 불필요하게 많은 양의 데이터를 조회할 필요가 없기 때문에 데이터 조회 성능 향상
- Data Warehouse는 3정규화까지 구현한 방식으로 설계 되기 때문에 Data Mart에 비해서 데이터를 조회하는 쿼리가 더 복잡함
- 전사 단위의 Data Warehouse를 구축하는 것보다 비용이나 시간을 훨씬 절약 가능 (데이터 웨어하우스의 구축 없이 데이터마트만 구축하는 경우 해당)
- Data Mart는 일반적으로 전사의 모든 영역을 아우르는 Data Warehouse에 비해 규모가 작은 특정 분야에 집중하고 있기 때문에 해당 분야에 대한 전문성만 갖추고 있다면 구축하는 것이 용이
- Data Mart가 위치해 있는 곳을 Data Warehouse와 물리적으로 분리 시켜서 운영하는 것이 가능하고 권한 관리도 별도로 설정 가능
- 종속 데이터 마트 : 데이터 웨어하우스에서 데이터 일부를 추출해서 구축
- 독립 데이터 마트 : 데이터 웨어하우스 구축 없이 직접 데이터를 가져와서 구축
- 복합 데이터 마트 : 데이터 웨어하우스, 직접적으로 가져온 데이터를 추출해서 구축