데이터 엔지니어링에 대해 관심이 생긴 이후로 데이터 엔지니어분들이 모여있는 오픈 카톡방에 들어갔었다. 아예 노베이스인 상태에서 관심을 갖다보니, 현업에 종사하시는 분들이 질문을 올리거나 그에 대한 답변을 해주셔도 모르는 단어들이 너무 많았다.
용어가 뭔지라도 이해는 하고싶어서 ETL의 개념에 대해 정리하다보니 데이터 웨어하우스, 데이터 레이크, 데이터 마트에 대한 언급이 있었다. 셋을 대충 데이터 스토리지 방식으로만 알고 있었던지라 이번을 기회삼아 정리를 해봐야겠다.
데이터 웨어하우스

- 모든 데이터는 정형 데이터이거나 테이블로 사전 모델링 된 데이터들임
- 분석 및 비즈니스 인텔리전스를 위한 사전 처리된 데이터의 중앙 리포지토리
- 중복 제거, 정렬, 요약, 검증 같은 몇 가지 기능을 미리 실행해 데이터 정확성 보장 가능
- 트랜잭션 시스템의 데이터와 업무 부서 애플리케이션의 데이터를 저장하는 관계형 DB
- 데이터 구조, 스키마는 가장 빠른 SQL 쿼리 성능을 제공하도록 설계되었음
- 내,외부 소스가 많음
- 여러 사업부의 데이터를 저장하여 종합적인 분석을 위해 전체 조직에서 수집된 데이터를 중앙에 통합
- 하향식 설계 접근 방법 : 전체 아키텍처를 계획 한 후 문제가 발생하면 해결
데이터 레이크

- 원시 데이터 및 비정형 데이터의 중앙 리포지토리
- 먼저 데이터를 저장하고 나중에 처리할 수 있음 (ELT)
- 비정형 및 반정형 데이터도 저장할 수 있음
- 조직에서 데이터를 먼저 레이크에 로드한 후 필요한 경우에만 변환해서 사용함
- 성능보단 스토리지 볼륨, 비용을 우선시
-> 더 낮은 비용으로 훨씬 더 많은 스토리지 볼륨, 합리적 속도의 데이터 엑세스
데이터 마트

- 회사의 금융, 마케팅 또는 영업 부서와 같은 특정 사업부의 요구 사항을 지원하는 데이터 웨어하우스
- 특정 사업부에 대한 데이터인 만큼 단일 주제에 초점을 맞추기에 주로 소규모
- 관계형 DB
- 데이터 소스 수 적음, 크기 작음
- 상향식 설계 접근 방법 : 데이터 엔지니어가 값, 데이터 유형, 외부 데이터 소스 같은 세부 정보를 이미 알고 있으므로 처음부터 구현을 계획
셋의 공통된 장점
- 분석을 위해 비즈니스 데이터를 안전하게 저장
- 필요한 만큼 무제한으로 데이터 볼륨 저장
- 기록 데이터 또는 레거시 데이터베이스 분석
- 실시간 및 배치 데이터 분석 실시
간단하게 정리해보자면, 데이터 웨어하우스와 데이터 레이크가 서로 다른 데이터 성격의 데이터 스토리지 솔루션이고, 데이터 마트는 데이터 웨어하우스의 세분화 된 버전 정도로 이해할 수 있을 것 같다.
참조