AWS 자격증을 공부할 때, AWS Redshift 는 데이터 웨어하우스 서비스를 제공한다고 했다. . .
데이터 웨어하우스. . . 대규모 데이터를 처리 및 분석한다고 하는데 그 점이 잘 와닿지 않던 도중 데이터베이스 및 관리기술 수업에서 웨어하우스에 대하여 다루게 되어 포스팅을 작성하게 되었다!
너무 오랜만의 포스팅이다 ㅎㅎ

현대 기업들은 매일 수많은 데이터를 생성하고 있다.
이 데이터를 단순히 저장하는 것을 넘어서, 분석과 의사결정에 활용할 수 있도록 통합·정제·보관하는 것이 점점 더 중요해지고 있는 추세이다.
이러한 니즈를 충족시키는 핵심 기술 중 하나가 바로 데이터 웨어하우스(Data Warehouse) 이다.
데이터 웨어하우스(DW)는 조직 내 여러 출처에서 수집한 대량의 데이터를 분석과 리포팅 목적으로 통합하여 저장하는 시스템입니다. 일반적인 트랜잭션 처리 시스템(OLTP)과는 달리, DW는 분석(OLAP)을 위한 구조로 설계됩니다.
즉 데이터 웨어하우스는 "운영" 보다는 "분석"에 특화된 데이터 저장소인 것이다.
비휘발성(Non-volatile): 한 번 저장된 데이터는 삭제되지 않고 유지됨
시간 가변적(Time-variant): 시간이 흐름에 따라 데이터를 추적 가능 (예: 2021년 대비 2023년 매출 변화)
통합된 데이터(Integrated): 서로 다른 시스템의 데이터를 하나의 포맷으로 정리
예) "남자"라는 데이터 값을 "MALE" 이라는 하나의 포맷으로 정리
주제 지향적(Subject-oriented): 고객, 매출, 제품 등 특정 주제 중심으로 설계
1. ETL(Extract, Transform, Load)
다양한 데이터 소스에서 데이터를 추출하고, 변환 후 적재하는 과정
→ 대표 도구: Talend, Apache Nifi, AWS Glue 등
2. 데이터 웨어하우스 스토리지
데이터가 저장되는 곳
→ 예: Amazon Redshift, Google BigQuery, Snowflake
3. 메타데이터(Metadata)
데이터에 대한 정보를 담고 있음 (예: 테이블 설명, 컬럼 정의 등)
4. OLAP 엔진
대용량의데이터를다차원적으로분석하여비즈니스인사이트를도출하는기술 (Roll-up, Dril!
l-down)