[ Data Engineering ] 데이터 엔지니어링 공부 03 : 데이터 웨어하우스 & 데이터 마트 & 데이터 레이크 란??

Data_Engineering

목록 보기
3/6
post-thumbnail

[ Data Engineering ] 데이터 엔지니어링 공부 03 : 데이터 웨어하우스 & 데이터 마트 & 데이터 레이크 란??

▽데이터 웨어하우스 & 데이터 마트 & 데이터 레이크 란??

목  차

1. 데이터 웨어하우스
   1-1. 정의
   1-2. 구조
   1-3. 작동 원리
   1-4. 이점.
   1-5. 문제점.
   
2. 데이터 마트.
   2-1. 정의
   2-2. 구조.
   2-3. 이점
   2-4. 사용 사례.
   
3. 데이터 레이크.
   3-1. 정의
   3-2. 구조
   3-3. 이점
   3-4. 사용 사례.
   
4. 데이터웨어하우스 - 데이터마트 - 데이터 레이크 비교.   
   4-1. 데이터 유형
   4-2. 스키마
   4-3. 유연성
   4-4. 사용 사례.
  
5. 결론.  

1. 데이터 웨어하우스.


1-1. 정의

  • 데이터 웨어하우스는 여러 소스에서 수집된 대량의 데이터를 통합하여 저장하고,
    이를 통해 비즈니스 인텔리전스(BI), 보고, 분석을 지원하는 중앙 집중식 데이터 저장소
    입니다.

  • 데이터 웨어하우스는 조직의 데이터를 하나의 소스에서 관리하여 정보에 기반한 의사 결정을 지원합니다

    1-2. 구조

  • 데이터 웨어하우스는
    중앙 데이터베이스, ETL(Extract, Transform, Load) 도구, 메타데이터, 액세스 도구로 구성됩니다.

    • 중앙 데이터베이스:
      데이터 웨어하우스의 기초가 되는 데이터베이스로, 전통적으로 관계형 데이터베이스를 사용하지만, 최근에는 메모리 내 데이터베이스가 인기를 끌고 있습니다.

    • ETL 도구:
      데이터를 추출, 변환, 적재하여 데이터 웨어하우스에 통합합니다.

    • 메타데이터:
      데이터에 대한 정보로, 데이터의 출처, 사용법, 값 등을 설명합니다.

    • 액세스 도구:
      사용자가 데이터 웨어하우스와 상호작용할 수 있는 쿼리 및 보고 도구, 애플리케이션 개발 도구, 데이터 마이닝 도구 등을 포함합니다.

  • 데이터 웨어하우스는 주로 스타 스키마나 스노우플레이크 스키마를 사용하여 다차원 모델링을 구현합니다

1-3. 작동 원리.

  • 데이터 웨어하우스는 ETL 프로세스를 통해 데이터를 정제하고 통합하여 저장합니다.

  • 데이터는 운영 시스템, 데이터베이스, 외부 소스에서 수집되며,
    주기적으로 데이터 웨어하우스로 전송됩니다.

  • 클라우드 컴퓨팅의 발전으로 인해
    데이터 저장소는 온프레미스에서 클라우드 기반으로 이동하고 있습니다

    1-4. 이점.

  • 정보에 기반한 의사 결정
    :데이터 웨어하우스는 비즈니스 인텔리전스(BI)를 위한 인사이트 확보에 중요한 역할을 합니다.

  • 여러 소스의 데이터 통합
    : 다양한 소스의 데이터를 하나의 시스템에서 관리합니다.

  • 과거 데이터 분석
    : 과거 데이터를 분석하여 장기적인 인사이트를 제공합니다.

  • 데이터 품질, 일관성 및 정확성
    : 데이터의 품질과 일관성을 보장합니다.

  • 트랜잭션 데이터베이스와 분석 처리 분리
    : 트랜잭션 데이터베이스와 분석 처리를 분리하여 두 시스템 모두의 성능을 향상시킵니다.

1-5. 문제점.

- 단일 위치에 데이터 저장
: 보안 위험 증가

- 초기 비용과 유지보수 비용
: 높은 초기 비용과 유지보수 비용

- 확장성 문제
: 데이터가 증가함에 따라 확장성이 제한될 수 있습니다.

2. 데이터 마트.


2-1. 정의

  • 데이터 마트는 데이터 웨어하우스의 하위 집합으로,
    특정 부서나 사업 단위의 요구를 충족시키기 위해 설계된 데이터 저장소입니다.

  • 데이터 마트는 특정 팀이나 부서의 분석 요구를 충족시키는 맞춤형 데이터 저장소입니다

2-2. 구조.

  • 데이터 마트는 스타 구조를 사용하여 데이터를 저장합니다.

  • 팩트 테이블과 여러 차원 테이블로 구성되며, 팩트 테이블은 분석에 필요한 요약된 데이터를 포함하고, 차원 테이블은 팩트 테이블에 대한 설명적 정보를 제공합니다.

2-3. 이점.

  • 특정 부서나 팀의 요구에 맞춘 데이터 제공
    : 특정 부서나 팀이 필요한 데이터만을 포함하여 효율적으로 분석할 수 있습니다.

  • 데이터 웨어하우스 전체를 탐색할 필요 없이 빠르고 쉽게 데이터에 접근 가능
    : 데이터 웨어하우스 전체를 탐색할 필요 없이 특정 데이터에 빠르게 접근할 수 있습니다.

    2-4. 사용 사례.

  • 마케팅 데이터 마트
    : 고객 데이터와 마케팅 캠페인 데이터를 포함하여 마케팅 팀이 분석에 사용할 수 있도록 합니다.

  • 재무 데이터 마트
    : 재무 데이터를 포함하여 재무 분석에 사용합니다.

3. 데이터 레이크.


3-1. 정의.

  • 데이터 레이크는 모든 유형의 데이터를 원시 형식으로 저장하는 중앙 리포지토리입니다.
  • 데이터 레이크는 비구조적, 반구조적, 구조적 데이터를 포함할 수 있으며,
    데이터의 가치를 미리 결정하지 않고 보관합니다

3-2. 구조.

  • 데이터 레이크는 원시 데이터 계층, 표준화된 데이터 계층, 정제된 데이터 계층으로 구성됩니다.

    • 원시 데이터 계층: 다양한 소스에서 수집된 원시 데이터를 저장합니다.

    • 표준화된 데이터 계층: 데이터를 표준화하여 이후 처리에 적합하게 만듭니다.

    • 정제된 데이터 계층: 데이터를 정제하여 분석에 사용할 수 있도록 합니다.

3-3. 이점.

  • 모든 데이터 유형 저장 가능
    :
    구조적, 반구조적, 비구조적 데이터를 모두 저장할 수 있습니다.

  • 비용 효율성
    :
    대량의 데이터를 저렴한 비용으로 저장할 수 있습니다.

  • 유연성
    :
    데이터를 필요에 따라 변환하여 분석할 수 있습니다.

  • 실시간 분석 가능
    :
    데이터를 실시간으로 분석할 수 있습니다.

3-4. 사용 사례.

  • 빅 데이터 처리
    : 대량의 데이터를 처리하고 분석하는 데 사용됩니다.

  • 머신 러닝 및 AI
    : 머신 러닝 및 AI 애플리케이션을 지원합니다.

  • 클라우드 및 IoT 데이터 이동
    : 클라우드 및 IoT 데이터를 처리하는 데 사용됩니다.

4. 데이터웨어하우스 - 데이터마트 - 데이터 레이크 비교.


4-1. 데이터 유형

  • 데이터 웨어하우스: 주로 정형 데이터

  • 데이터 마트: 특정 부서나 팀의 요구에 맞는 정형 데이터

  • 데이터 레이크: 모든 유형의 데이터(정형, 반정형, 비정형)

4-2. 스키마

  • 데이터 웨어하우스: 스키마-온-라이트(데이터가 저장되기 전에 스키마 정의)

  • 데이터 레이크: 스키마-온-리드(데이터가 저장된 후 분석 시 스키마 정의)

4-3. 유연성.

  • 데이터 레이크: 더 낮은 비용으로 더 높은 유연성을 제공합니다.

4-4. 사용 사례.

  • 데이터 웨어하우스: 구조화된 보고 및 BI

  • 데이터 마트: 부서별 또는 특수 요구 사항

  • 데이터 레이크: 광범위한 데이터 분석

5. 결론.


  • 데이터 웨어하우스, 데이터 마트, 데이터 레이크는 각각의 장점과 한계를 가지고 있으며,
    조직의 특정 요구 사항에 따라 적절히 선택하여 사용할 수 있습니다.

  • 데이터 웨어하우스는 구조화된 데이터 분석에 최적화되어 있으며,

  • 데이터 마트는 특정 부서의 요구를 충족시키고,

  • 데이터 레이크는 모든 유형의 데이터를 저장하고 분석할 수 있는 유연성을 제공합니다.

  • 이러한 데이터 저장소는 서로 보완적으로 작동하여 조직의 데이터 관리와 분석 요구를 충족시킵니다.

0개의 댓글