데이터 웨어하우스(Data Warehouse, DW)
: 정보(Data) + 창고(Warehouse)의 의미가 합성되어 만들어진 어휘
기존 정보를 활용해 더 나은 정보를 제공하고, 데이터의 품질을 향상시키며, 조직의 변화를 지원하고 비용과 자원관리의 효율성을 향상시키는 것이 목적
==> 기업의 정보 자산을 효율적으로 활용하기 위한 하나의 패러다임으로서, 기업의 전략적 관점에서 효율적인 의사 결정을 지원하기 위해 데이터의 시계열적(時系列的) 축적과 통합을 목표로 하는 기술의 구조적ㆍ통합적 환경. 데이터 베이스가 여기저기 흩어져 있는 데이터 테이블을 연결하여 사용
: 기존의 데이터베이스가 대출, 예금, 재고관리 등과 같은 '기능'이나 '업무' 처리를 중심으로 설계되는 것에 비해 데이터웨어 하우스(DW)는 고객, 거래처, 공급자, 상품 등과 같은 '주제' 중심으로 구성. 즉, 이용자에게 이해하기 쉬운 형태로 제공
: 기존의 운영시스템은 부서나 부문, 혹은 기관별로 일관성 없는 다량의 데이터를 중복 관리하지만, 데이터 웨어하우스(DW)는 데이터 속성의 이름, 코드의 구조, 도량형 단위 등의 일관성을 유지하며 전사적 관점에서 하나로 통합
: 기존의 데이터베이스는 사용자가 사용하는 현재 시간을 기준으로 최신의 값을 유지하지만, 데이터웨어 하우스(DW)는 일정 기간 수집된 데이터를 갱신 없이 보관하며 일, 월, 분기, 년 등과 같은 기간 관련 정보를 함께 저장.
*시계열성은 어떤 자료가 시간에 따라 변경되어야 하는 것이 아니고, 시간에 따른 변경을 항상 반영하고 있어야 함을 의미
: 기존의 데이터베이스에서는 추가나 삭제, 변경 등과 같은 갱신 작업이 레코드 단위로 지속적으로 발생하지만, 데이터 웨어하우스(DW) 내의 데이터는 일단 적재(loading)가 완료되면 읽기 전용 형태의 스냅 샷 데이터로 존재
Enterprise Data Warehouse
:기존 DW를 전사적으로 확장한 모델인 동시에 BPR과 CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천
업무 시스템 별로 흩어져 있는 각종 업무정보를 최종 사용자가 쉽게 활용(분석,추이,패턴분석 등)할 수 있도록 회사 내 방대한 양의 데이터를 다차원적으로 신속하게 분석하여 필요한 정보에 용이하게 접근, 활용할 수 있게 하는 시스템
: Source, 원천. 데이터가 만들어지는 것(시스템)
일반적으로 운용 어플리케이션(응용) 시스템이라고 불리우는 시스템에서 데이터가 생성
운영계 시스템이라고도 불림. (ex. 고객관리 시스템, 자산관리 시스템, 재무관리 시스템, 직원관리 시스템 등)
즉, 경영을 하면서 필요한 오퍼레이션(운영/관리)를 위해 필요한 시스템. 운영계, 혹은 계정계(은행업계)
: 이와 달리 EDW는 분석계에 해당. 운영계처럼 업무처리나 관리를 위한 시스템이 아니라 말 그대로 분석을 위한 시스템. 전에는 주로 통계나 리포트 작성을 위한 데이터 생성이 목적.
Why? 운영계에서는 업무/서비스를 위해서 24시간 운영되는 경우도 있는데 이런 경우, 통계/리포트를 만들기 위해서 데이터 처리를 위한 시스템 구조/용량을 확보할 수 없거나 그렇게 하는 것이 비효율적
하지만, 요즘 빅데이터의 발전으로 Data Storage에 대한 여러 종류의 아키텍쳐가 발전하고 있는데, 그 중
하둡(Hadoop), HDFS(HaDoop File System) 등이 있음
: Data Storage에서 분석하여 만들어 놓은 데이터를 활용하는 layer.
가장 기본인 SQL(Structured Query Language : DB의 데이터를 입력,조회,수정,삭제 할 수 있는 명령어 모음), 리포트(ex. excel 표, 자료), OLAP(On Line Analytical Processing).
실시간 데이터(Real-Time Data)
: 시간 데이터는 수집 후 즉시 전달되는 정보
실시간 데이터는 동적 데이터와 다르다.
—> 실시간 데이터는 동적 또는 정적일 수 있다.
ADW(Analytical Data Warehouse)
: 데이터 분석(Data Analysis)
유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를
정리, 변환, 모델링하는 과정이다.
: ETL이란 데이터 웨어하우스 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터 웨어하우스(DW)에 적재하는 모든 과정. 일반적으로 발생하는 데이터 변환에는 필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등의 다양한 작업이 포함
Extract : 하나 또는 그 이상의 데이터 원천들로 부터 데이터 획득
Transform: 데이터 클렌징, 형식 변환 및 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스룰 적용 등
Load: 변형 단계의 처리가 완료된 데이터를 특정 목표 시스템에 적재
ETL을 적용 및 확장한 개념에 추가로 알아보자.
데이터마트(Data Mart, DM)
: DW 환경에서 정의된 접근계층으로, DW에서 데이터를 꺼내 사용자에게 제공하는 역할
DM은 DW의 부분이며, 보통 특정한 조직 또는 팀에서 사용하는 것을 목적으로 한다.
데이터 웨어하우징(Data Warehousing)
: 데이터 수집 및 처리에서 도출되는 정보의 활용에 이르는 일련의 프로세스
https://kr.analysisman.com/2020/08/cloud-dw-cdp.html
https://ko.myservername.com/metadata-data-warehouse-explained-with-examples
https://m.blog.naver.com/obzen/221669060933