[ Data Engineering ] 데이터 엔지니어링 공부 04 : 데이터 웨어하우스 개념 기초 정리.

▽데이터 웨어하우스 개념 기초 정리.
목 차
1. 데이터 웨어하우스의 정의와 역할
2. OLTP와 OLAP의 차이
3. 데이터 웨어하우스의 핵심 특성
4. 데이터 웨어하우스 아키텍처의 기본 구조
5. 데이터 모델링의 기초
6. ETL/ELT 프로세스 개요
7. 데이터 웨어하우스의 주요 이점과 도전 과제

1. 데이터 웨어하우스의 정의와 역할

데이터 웨어하우스의 목적.
:비즈니스 인텔리전스(BI), 리포팅, 분석을 제공하고 규제 요구사항을 지원
데이터 웨어하우스의 기능
: 데이터 분석, 데이터 마이닝, 기계학습(ML) 및 인공지능(AI) 이니셔티브를 위한 데이터 준비
데이터 웨어하우스의 이점
: 정보에 기반한 의사결정, 데이터의 높은 품질, 분석처리 프로세스와 트랜잭션 데이터베이스의 성능 향상

2. OLTP와 OLAP의 차이

OLTP(On-Line Transaction Processing)
- 트랜잭션 중심의 데이터베이스 시스템으로, 주로 데이터의 삽입&수정&삭제 작업을 처리합니다.
- 데이터의 일관성과 무결성을 보장하며, 빠른 트랜잭션 처리 속도가 요구됩니다.
- 예시 : 온라인 쇼핑몰의 주문 처리 시스템은 OLTP 시스템의 대표적인 예.

OLAP(On-Line Analytical Processing)
-
분석 중심의 시스템으로, 데이터 웨어하우스에서 주로 사용되며, 복잡한 쿼리와 데이터 분석을 지원합니다.
-
대량의 데이터를 빠르게 분석하고 요약하여 비즈니스 인사이트를 제공합니다.
- 예시:
판매 데이터를 분석하여 지역별 매출 현황을 파악하는 작업은 OLAP 시스템을 통해 수행됩니다.
OLTP와 OLAP는 서로 다른 목적과 특성을 가지며,
데이터 웨어하우스는 주로 OLAP 작업을 지원합니다.


3. 데이터 웨어하우스의 핵심 특성
주제 중심:
- 데이터는 특정 주제(예: 고객, 제품, 판매) 중심으로 조직됩니다.
- 이는 데이터를 논리적으로 구조화하여 분석에 용이하게 합니다.
통합:
- 여러 소스에서 데이터를 통합하여 일관된 형식과 단위로 제공합니다.
- 이는 데이터의 중복을 줄이고, 데이터 간의 일관성을 유지합니다.
비휘발성:
- 데이터 웨어하우스에 저장된 데이터는 변경되지 않습니다.
- 이는 데이터의 신뢰성을 높이고, 과거 데이터를 분석할 수 있게 합니다.
시간 변이성:
- 데이터는 시간에 따라 추적 및 분석할 수 있습니다.
- 이는 시간 경과에 따른 데이터의 변화를 분석하여 비즈니스 전략을 수립하는 데 유용합니다.

4. 데이터 웨어하우스 아키텍처의 기본 구조
데이터 웨어하우스 아키텍처는 일반적으로 다음과 같은 구성 요소로 이루어져 있습니다:
데이터 소스:
- 관계형 데이터베이스, 클라우드 스토리지, 외부 API 등 다양한 소스에서 데이터를 수집합니다.
ETL/ELT 프로세스:
- 데이터를 추출, 변환, 로드하는 과정입니다.
- ETL은 데이터를 로드하기 전에 변환하며, ELT는 데이터를 로드 후 변환합니다.
데이터 저장소:
- 데이터를 저장하는 저장소로,
관계형 데이터베이스(RDBMS)나 NoSQL 데이터베이스를 사용할 수 있습니다.
데이터 모델링:
- 데이터를 구조화하여 효율적으로 저장하고 분석할 수 있도록 합니다.
- 차원 모델링, 정규화 등 다양한 기법을 사용합니다.
분석 도구:
- 데이터를 분석하고 시각화하는 도구로, BI 툴이나 데이터 시각화 소프트웨어를 사용합니다.

5. 데이터 모델링의 기초
- 데이터 모델링은 데이터를 구조화하여 효율적으로 저장하고 분석할 수 있도록 합니다.
주요 개념으로는 다음과 같은 것들이 있습니다:
차원 모델링:
- 데이터를 팩트 테이블과 차원 테이블로 나누어 구조화합니다.
- 팩트 테이블은 측정 가능한 데이터를 저장하며,
차원 테이블은 팩트 테이블의 데이터를 설명하는 정보를 저장합니다.

스타 스키마와 스노우플레이크 스키마:

정규화와 비정규화:
-
데이터 정규화는 데이터 중복을 줄이고 일관성을 유지하지만, 쿼리 성능이 저하될 수 있습니다.
-
비정규화는 쿼리 성능을 높이지만, 데이터 중복이 발생할 수 있습니다.

6. ETL/ELT 프로세스 개요

- 데이터를 추출, 변환, 로드하는 과정입니다.
- ETL은 데이터를 로드하기 전에 변환하여서, 데이터 웨어하우스에 적합한 형식으로 만들어줍니다.

- 데이터를 로드 후 변환합니다.
- ELT는 클라우드 기반 시스템에서 더 효율적이며,
데이터 변환을 데이터 웨어하우스 내에서 수행하여 성능을 높일 수 있습니다.
ETL/ELT 프로세스는 데이터의 품질과 일관성을 보장하며, 데이터 웨어하우스의 핵심 구성 요소.

7. 데이터 웨어하우스의 주요 이점과 도전 과제
주요 이점.
-
데이터 통합:
- 데이터 웨어하우스는 다양한 소스에서 데이터를 통합하여 일관된 형식으로 제공합니다.
- 이는 데이터의 중복을 줄이고, 데이터 간의 일관성을 유지합니다.
-
분석 성능 향상:
- 데이터 웨어하우스는 OLAP(On-Line Analytical Processing) 작업을 지원하여
복잡한 쿼리와 데이터 분석을 빠르게 수행할 수 있습니다.
- 이는 비즈니스 인사이트를 빠르게 제공하여 의사결정을 지원합니다.
-
비즈니스 의사결정 지원:
- 데이터 웨어하우스는 조직이 데이터 기반의 의사결정을 내릴 수 있도록 지원합니다.
- 이는 정확한 데이터 분석을 통해 비즈니스 전략을 수립하고,
시장 변화에 신속히 대응할 수 있게 합니다.
-
장기 데이터 저장 및 분석:
- 데이터 웨어하우스는
대량의 역사적 데이터를 저장하여 장기적인 트렌드 분석과 예측을 가능하게 합니다.
- 이는 비즈니스 전략의 장기적인 계획 수립에 유용합니다

도전 과제.
-
데이터 품질 관리:
- 데이터 웨어하우스는
대량의 데이터를 다루기 때문에 데이터의 정확성과 일관성을 보장하는 것이 중요합니다.
- 데이터 품질 관리는 데이터 오류를 수정하고, 데이터의 신뢰성을 높이는 데 필수적입니다.
-
보안 및 규제 준수:
- 데이터 웨어하우스는
개인정보 보호와 관련된 다양한 규제(GDPR, CCPA 등)에 맞춰 데이터를 처리해야 합니다.
- 이는 데이터 보안과 규제 준수를 위한 강력한 시스템을 구축하는 것을 의미합니다.
-
성능 최적화:
- 데이터 웨어하우스는 대량의 데이터를 처리해야 하므로 성능 최적화가 중요합니다.
- 이는 데이터 분산, 병렬 처리, 인덱싱 전략 등을 통해 이루어질 수 있습니다.
-
사용자 접근성:
- 데이터 웨어하우스는 비기술적 사용자도 쉽게 사용할 수 있도록 설계되어야 합니다.
- 이를 위해 데이터 카탈로그와 같은 도구를 활용하여 사용자 접근성을 높일 수 있습니다