‘정보에 입각한 의사결정을 내릴 수 있도록 구축된 중앙저장소’
DW는 여러 OLTP에서 가져온 정형, 반정형 데이터를 분석하고 보고하는데 사용되도록 정제하여 저장한 엔터프라이즈 시스템이다. DB는 데이터를 분석 및 통계를 하기에 너무 작은 단위이어서 여러 개의 DB가 포함된 DW의 필요성이 대두되었다. DW는 현재 데이터와 과거 데이터를 모두 한곳에 저장할 수 있으며, 시간 흐름에 따른 장기간의 데이터 동향을 확인할 수 있도록 설계 되었으므로 BI의 주요 구성요소로 꼽힌다. OLTP로 오랜 동안 쌓인 데이터를 ETL을 통해 DW로 통합 구축하고 OLAP로 다양하게 분석, 추출한다.
subject oriented 주제지향
기존 DB는 기능, 업무 처리 중심으로 설계되지만 DW는 이용자가 이해하기 쉬운 주제 중심으로 구성된다
integrated 통합성
기존 운영시스템은 다량의 데이터를 중복으로 관리하지만 DW는 데이터 속성의 이름, 코드의 구조 등의 일관성을 유지하며 전사적 관점에서 하나로 통합되어 구성된다.
time variant 시계열
기존DB는 사용자가 사용하는 현재 시간을 기준으로 최신의 값을 유지하지만 DW는 일정 기간 수집된 데이터를 갱신 없이 보관하여 일, 월, 분기, 년 등과 같은 기간 관련 정보를 함께 저장한다.
nonvolatile 비휘발성
기존DB는 추가, 삭제, 변경 등과 같은 갱신 작업이 레코드 단위로 발생하지만 DW는 일단 적재가 되면 읽기 전용의 스냅샷 데이터로 존재
‘가공되지 않은 다양한 종류의 데이터를 한 곳에 모은 저장소의 집합’
조직에서 수집한 정형, 반정형, 비정형 데이터를 특정 방식으로 모델링하고 처리할 필요가 없이 원시 형태(raw data)로 저장하는 단일한 데이터 저장소이다. 크기 제한을 무시하고 다양한 데이터를 처리할 수 있다. 데이터 레이크는 빅 데이터 솔루션과 쉽게 통합할 수 있어서 데이터 레이크에 머신러닝 모델을 배포하고 고급 알고리즘을 실행할 수 있다. 데이터 레이크는 상시 사용 중인 데이터의 아카이브 및 백업으로 사용할 수 있다. 또한 DW를 구축하는 것에 비해 더 저렴한 솔루션으로, 어디에 적용할지 정립하지 않아도 가능한 모든 데이터를 수집할 수 있습니다.
데이터 레이크는 DW 보완재이지 대체재는 아니다. 두 플랫폼 특징과 목적도 다르기에 필요에 맞는 걸 골라 사용하거나 함께 융합하여 사용하는 것이 좋다.
‘유연하고 안전하며 적응력이 뛰어난 통합 데이터 아키텍처’
데이터 저장소를 중앙에 두는 대신, 융합된 환경을 만들고 인공 지능과 메타데이터 자동화를 사용하여 데이터를 관리, 분석 및 활용한다. 최적화를 통해 스토리지에서 상당한 비용을 절약하면서도 최고 수준의 암호화로 데이터를 보호할 수 있다. 데이터패브릭은 전반적인 성능을 향상시키고 비용을 제어하며 인프라 구성 및 관리를 단순화한다. 기존의 검색 가능하고 참조된 메타데이터를 지속해서 분석하여, 하이브리드 및 멀티 클라우드 플랫폼을 포함한 모든 환경에서 통합되고 재사용 가능한 데이터세트를 설계, 구축 및 활용하도록 해준다.