chatgpt 답변 기반으로, 데이터 저장소 분류에 따른 비교
🔸 개념
비정형, 반정형, 정형 데이터를 모두 저장하는 대규모 저장소야.
데이터를 가공하지 않은 원본 상태(raw data)로 저장해.
마치 호수(lake)처럼 다양한 형태의 데이터가 섞여 있는 구조라고 생각하면 돼.
S3, HDFS, Azure Data Lake 같은 기술이 사용돼.
🔸 특징
확장성: 대용량 데이터를 저렴한 비용으로 저장할 수 있어.
유연성: 스키마 없이 데이터를 저장하고, 나중에 필요할 때 처리해. (Schema-on-read 방식)
다양한 데이터: 로그 데이터, 이미지, 동영상, JSON 등 형태에 구애받지 않고 저장할 수 있어.
분산 처리: Spark, Hadoop 같은 분산 처리 시스템과 연동돼.
🔸 단점
데이터 혼잡성: 데이터가 가공되지 않고 쌓이기 때문에 데이터 늪(Data Swamp)이 될 위험이 있어.
느린 쿼리: 전체 데이터를 스캔해야 해서 분석 속도가 느릴 수 있어.
데이터 품질 관리 어려움: 원시 데이터가 많아서 일관성이 부족할 수 있어.
🔸 사용 사례
대규모 로그 데이터 수집, IoT 데이터 저장, 비디오/이미지 분석 등.
Netflix, Uber, AWS 등에서 데이터 레이크를 운영해.
🔸 개념
구조화된 데이터를 저장하는 분석용 데이터 저장소야.
데이터는 가공 및 정제된 후 저장돼.
기존 데이터베이스와 비슷하지만, 대규모 분석 쿼리에 특화되어 있어.
Snowflake, Redshift, BigQuery, Teradata 등이 대표적인 기술이야.
🔸 특징
스키마 고정: 데이터가 들어오기 전에 스키마가 정해져 있어. (Schema-on-write 방식)
빠른 쿼리 속도: 분석용으로 최적화돼 있어서 쿼리 속도가 빠르다.
정제된 데이터: 데이터가 정리되어 있어서 신뢰도가 높아.
비즈니스 분석 최적화: OLAP(Online Analytical Processing)에 특화되어 있어.
🔸 단점
비용이 비쌈: 대규모 데이터 저장 및 처리 비용이 크다.
유연성 부족: 새로운 데이터 유형을 다루기 어렵고, 스키마 변경이 제한적이야.
비정형 데이터 처리 어려움: 이미지, 영상 같은 비정형 데이터는 처리하기 힘들어.
🔸 사용 사례
비즈니스 인텔리전스(BI), 재무 분석, 리포팅, KPI 모니터링 등.
은행, 보험사, 대기업에서 많이 사용해.
🔸 개념
데이터 웨어하우스에서 특정 부서나 프로젝트에서 사용할 작은 단위의 데이터 저장소야.
데이터 웨어하우스가 전체 데이터를 저장한다면, 데이터 마트는 특정 주제에 맞게 가공된 데이터를 저장해.
🔸 특징
속도와 접근성: 특정 부서에서 필요한 데이터만 저장하니까 쿼리 속도가 빠르고 접근이 쉬워.
비용 절감: 전체 웨어하우스를 조회하는 것보다 비용이 적게 든다.
간편성: 특정 비즈니스 목표에 맞게 데이터를 쉽게 추출할 수 있어.
🔸 단점
데이터 일관성 문제: 각 부서별로 데이터 마트를 운영하다 보면 중복 데이터가 생길 수 있어.
범위 제한: 특정 부서나 프로젝트 중심으로 데이터를 저장하기 때문에 전체 데이터 흐름 파악이 어렵다.
🔸 사용 사례
마케팅, 영업, HR 등 부서별로 데이터 마트를 운영해.
예를 들어, 마케팅 부서에서는 고객 행동 데이터를 저장하고, 영업 부서는 판매 데이터를 따로 관리해.
| 항목 | 데이터 레이크 | 데이터 웨어하우스 | 데이터 마트 |
|---|---|---|---|
| 데이터 형식 | 비정형, 반정형, 정형 데이터 모두 | 정형 데이터 중심 | 특정 주제의 정형 데이터 |
| 스키마 | Schema-on-read (나중에 정의) | Schema-on-write (미리 정의) | Schema-on-write (미리 정의) |
| 처리 속도 | 느림 (전체 스캔 필요) | 빠름 | 매우 빠름 |
| 비용 | 낮음 | 높음 | 중간 |
| 유연성 | 높음 (모든 데이터 저장 가능) | 낮음 | 중간 |
| 데이터 처리 | 원시 데이터 그대로 저장 | 정제 및 가공된 데이터 저장 | 정제된 데이터의 일부 |
| 데이터 정합성 | 낮음 | 높음 (일관성 유지) | 높음 |
| 사용 목적 | 대규모 데이터 저장 및 머신러닝 | 비즈니스 분석 및 리포팅 | 특정 부서/프로젝트 데이터 분석 |
| 사용 사례 | 로그 데이터, IoT, 멀티미디어 데이터 저장 | 재무 분석, BI 리포팅 | 마케팅, 영업, HR 부서별 데이터 분석 |
데이터 레이크:
비정형 데이터를 많이 다루고, 머신러닝이나 대규모 데이터 수집이 필요한 경우.
데이터 웨어하우스:
비즈니스 인텔리전스(BI), 재무 분석, 리포팅 등 정형 데이터 중심의 분석이 필요한 경우.
데이터 마트:
특정 부서나 프로젝트에서 빠르게 데이터를 추출하고 분석하고 싶을 때.