데이터 웨어하우스란 사용자의 의사 결정에 도움을 주기 위해 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환하여 관리하는 데이터베이스를 말한다.
출처 : 위키백과
데이터 웨어하우스는 왜 필요한 것일까?
이를 알기 위해 데이터베이스와의 비교가 필요하다. 데이터베이스는 저장, 조회, 수정을 목적으로한 조직화된 데이터의 집합이다. 반면 데이터 웨어하우스는 데이터 분석에 목적이 있으며, 분리되있는 여러 DB 혹은 소스들을 통합한 데이터베이스이다. 또한, 데이터베이스는 정규화되어 조인을 포함한 복잡한 쿼리를 수행할 때의 부하가 크다. 그에 반해, 데이터 웨어하우스는 비정규화되어 있기 때문에 대규모 쿼리에 적합하다는 장점이 있다.
일관성
데이터 웨어하우징은 일반적으로 여러 소스들로 부터 데이터를 변환하고 표준화된 규격으로 포멧팅하는 절차를 포함한다. 이를 통해, 사용자는 전체 데이터의 집합에 대해 분석과 인사이트 공유를 더욱 쉽게 할 수 있다. '일관성을 갖춘 데이터'의 의미는 마케팅, 영업, 금융과 같은 individual한 사업에서 동일한 데이터 리소스를 쿼리 및 보고서에 사용하여 다른 부서와 일관된 결과를 생성할 수 있음을 의미한다. 즉, 일관성있는 데이터 포멧을 통해 쿼리를 더 쉽게 수행할 수 있다는 것이다.
중심성(혹은 중앙집중성)
대부분의 조직들은 의미있는 BI(business intelligence)를 만들어 내기 위해 서로 다른 플랫폼에 적재되 있는 데이터들을 통합할 필요성을 갖는다. 데이터 웨어하우징은 하나의 리포지토리에 데이터를 통합함으로써 이 문제를 해결한다.
접근성
데이터 웨어하우징은 사용자에게 널리 퍼진 기업 데이터에 접근할 수 있도록 한다. 많은 경우 기업 사용자와 결정권자는 원하는 데이터를 얻기 위해 각각의 시스템에 로그를 남겨야 한다. 그리고 개별적으로 데이터들을 통합하거나 IT 담당자에게 보고서를 요청해야 한다. 데이터 웨어하우스를 통해 사용자는 각각의 시스템에 로그를 남기는 대신, 하나의 인터페이스로 모든 기업 데이터에 접근할 수 있다.
회계감사성(Auditability)
데이터 웨어하우스의 목표는 데이터가 정확하고 최신이며 액세스할 수 있도록 보장하는 것이다. 이는 감사 프로세스의 목표이기도 하다. 또한, 소스 시스템에서 데이터를 추출하고 데이터 웨어하우스로 마이그레이션하는 것과 관련된 역할 및 책이멩 대한 제어를 통해 데이터 무결성을 보장할 수 있다. 데이터 웨어하우스 내에 구현된 보안 제어 기능을 통해 사용자는 데이터에 대한 읽기 액세스만 할 수 있다.
데이터 건전성(Data sanization)
여러 시스템에서 데이터가 통합될 때, 데이터는 불완전하거나 중복된 정보로 인해 일관되지 못할 수 있다. 만약 데이터가 명확하거나 정확하지 못할 경우, 이 에러는 쿼리와 보고서에 영향을 주는 것을 넘어 부정확한 인사이트를 도출할 수 있다. 데이터 웨어하우스는 건정성 프로세스를 사용하여 데이터 리포지토리로 부터 낮은 퀄리티의 데이터를 제거한다. 이 메소드는 중복되거나 충돌되거나 부정확한 데이터셋을 감지한고, 이를 대체하거나 수정하거나 삭제하여 데이터의 통합성과 일관성을 보장한다.