DW, EDW, RDW, ADW and ETL

TAK·2022년 10월 16일
0

Data&Analytics

목록 보기
1/1

DW

데이터 웨어하우스(Data Warehouse, DW)
: 정보(Data) + 창고(Warehouse)의 의미가 합성되어 만들어진 어휘
기존 정보를 활용해 더 나은 정보를 제공하고, 데이터의 품질을 향상시키며, 조직의 변화를 지원하고 비용과 자원관리의 효율성을 향상시키는 것이 목적

  • 사용자의 의사 결정에 도움을 주기 위하여 분석 가능한 형태로 정보들이 저장되어 있는 중앙 저장소
  • 방대한 조직 내에서 분산 운영되는 각각의 데이터 베이스 관리시스템들을 효율적으로 통합하여 조정ㆍ관리할 수 있어 효율적인 의사 결정 시스템을 위한 기초를 제공하는 실무적인 활용 방법론이 제공
  • 관리 하드웨어, 관리 소프트웨어, 추출ㆍ변환ㆍ정렬 도구, 데이터 베이스 마케팅 시스템, 메타 데이터(meta data), 최종 사용자 접근 및 활용 도구 등으로 구성

==> 기업의 정보 자산을 효율적으로 활용하기 위한 하나의 패러다임으로서, 기업의 전략적 관점에서 효율적인 의사 결정을 지원하기 위해 데이터의 시계열적(時系列的) 축적과 통합을 목표로 하는 기술의 구조적ㆍ통합적 환경. 데이터 베이스가 여기저기 흩어져 있는 데이터 테이블을 연결하여 사용

특성

  • 주제지향(Subject Oriented)

: 기존의 데이터베이스가 대출, 예금, 재고관리 등과 같은 '기능'이나 '업무' 처리를 중심으로 설계되는 것에 비해 데이터웨어 하우스(DW)는 고객, 거래처, 공급자, 상품 등과 같은 '주제' 중심으로 구성. 즉, 이용자에게 이해하기 쉬운 형태로 제공

  • 통합(Integrated)

: 기존의 운영시스템은 부서나 부문, 혹은 기관별로 일관성 없는 다량의 데이터를 중복 관리하지만, 데이터 웨어하우스(DW)는 데이터 속성의 이름, 코드의 구조, 도량형 단위 등의 일관성을 유지하며 전사적 관점에서 하나로 통합

  • 시계열(Time Variant)

: 기존의 데이터베이스는 사용자가 사용하는 현재 시간을 기준으로 최신의 값을 유지하지만, 데이터웨어 하우스(DW)는 일정 기간 수집된 데이터를 갱신 없이 보관하며 일, 월, 분기, 년 등과 같은 기간 관련 정보를 함께 저장.

*시계열성은 어떤 자료가 시간에 따라 변경되어야 하는 것이 아니고, 시간에 따른 변경을 항상 반영하고 있어야 함을 의미

  • 비휘발성(Nonvolatile)

: 기존의 데이터베이스에서는 추가나 삭제, 변경 등과 같은 갱신 작업이 레코드 단위로 지속적으로 발생하지만, 데이터 웨어하우스(DW) 내의 데이터는 일단 적재(loading)가 완료되면 읽기 전용 형태의 스냅 샷 데이터로 존재

특징

  1. 웨어하우스 데이터는 비즈니스 사용자들의 의사결정 지원에 전적으로 이용된다.
  2. 기업의 운영시스템과 분리되며, 운영시스템으로부터 많은 데이터가 공급된다. 데이터 웨어하우스는 여러 개의 개별적인 운영시스템으로부터 데이터가 집중된다. 기본적인 자료 구조는 운영시스템과 완전히 다르므로 데이터들이 데이터 웨어하우스로 이동되면서 재구조화되어야 한다. 운영시스템과 데이터 웨어하우스는 근본적으로 다르며, 두 개의 매우 상이한 시스템을 요구한다.
  3. 데이터 웨어하우스는 신뢰할 수 있는 하나의 버전 (one version of truth)을 사용자에게 제공한다. 기존 운영시스템의 대부분은 항상 많은 부분이 중복됨으로써 하나의 사실에 대해 다수의 버전이 존재하게 된다. 그렇지만 데이터 웨어하우스에서 이러한 데이터는 전사적인 관점에서 통합된다.
  4. 시간성 혹은 역사성을 가진다. 즉 일, 월, 년 회계기간등과 같은 정의된 기간과 관련되어 저장된다. 운영시스템의 데이터는 사용자가 사용하는 매순간 정확한 값을 가진다. 즉 바로 지금의 데이터를 정확하게 가지고 있을 것이 요구된다. 반면 웨어하우스의 데이터는 특정 시점을 기준으로 정확하다.
  5. 주제 중심적이다. 운영시스템은 재고 관리, 영업관리 등과 같은 기업운영에 필요한 특화된 기능을 지원하는 데 반해, 데이터 웨어하우스는 고객, 제품 등과 같은 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 조직된다.
  6. 컴퓨터 시스템 혹은 자료 구조에 대한 지식이 없는 사용자들이 쉽게 접근할 수 있어야 한다. 조직의 관리자들과 분석가들은 그들의 PC로부터 데이터 웨어하우스에 연결될 수 있어야 한다. 이런 연결은 요구에 즉각적이어야 하고, 또한 신속성을 보여야 한다.
  7. 데이터 웨어하우스는 읽기 전용 데이터베이스로서 갱신이 이루어지지 않는다. 웨어하우스 환경에서는 프로덕션 데이터 로드(Production Data Load)와 활용만이 존재하며, 운영시스템에서와 같은 의미의 데이터의 갱신은 발생하지 않는다.
  8. 데이터 웨어하우스는 일정한 시간 동안의 데이터를 대변하는 것으로 snap shot과 같다고 할 수 있다. 따라서 데이터 구조상에 '시간'이 아주 중요한 요소로 작용한다.

EDW

Enterprise Data Warehouse
:기존 DW를 전사적으로 확장한 모델인 동시에 BPR과 CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천
업무 시스템 별로 흩어져 있는 각종 업무정보를 최종 사용자가 쉽게 활용(분석,추이,패턴분석 등)할 수 있도록 회사 내 방대한 양의 데이터를 다차원적으로 신속하게 분석하여 필요한 정보에 용이하게 접근, 활용할 수 있게 하는 시스템

  • EDW를 구축하는 것은 단순히 정보를 빠르게 전달하는 대형 시스템을 도입한다는 의미가 아니라 기업 리소스의 유기적 통합, 다원화된 관리 체계 정비, 데이터의 중복 방지 등을 위해 시스템을 재설계 하는 것으로 이해
  • 데이터 웨어하우징(Data Ware-housing)의 개념은 기간계의 주요 데이터를 주제별로 통합하여 현업 부서의 정보분석 요구를 신속히 충족시키는 시스템을 의미. 이를 위해 기업의 정보기반이 되는 인프라를 구축하고 이를 IT부서의 도움 없이 액세스하는 방법을 제공
  • EDW는 이 개념을 기업의 전사적인 영역으로 확장시킨 개념

Data Source, Data Storage, Front-End Tools 3가지 Layers

  • Data Source

: Source, 원천. 데이터가 만들어지는 것(시스템)
일반적으로 운용 어플리케이션(응용) 시스템이라고 불리우는 시스템에서 데이터가 생성
운영계 시스템이라고도 불림. (ex. 고객관리 시스템, 자산관리 시스템, 재무관리 시스템, 직원관리 시스템 등)
즉, 경영을 하면서 필요한 오퍼레이션(운영/관리)를 위해 필요한 시스템. 운영계, 혹은 계정계(은행업계)

  • Data Storage

: 이와 달리 EDW는 분석계에 해당. 운영계처럼 업무처리나 관리를 위한 시스템이 아니라 말 그대로 분석을 위한 시스템. 전에는 주로 통계나 리포트 작성을 위한 데이터 생성이 목적.
Why? 운영계에서는 업무/서비스를 위해서 24시간 운영되는 경우도 있는데 이런 경우, 통계/리포트를 만들기 위해서 데이터 처리를 위한 시스템 구조/용량을 확보할 수 없거나 그렇게 하는 것이 비효율적
하지만, 요즘 빅데이터의 발전으로 Data Storage에 대한 여러 종류의 아키텍쳐가 발전하고 있는데, 그 중
하둡(Hadoop), HDFS(HaDoop File System) 등이 있음

  • Front-End Tools

: Data Storage에서 분석하여 만들어 놓은 데이터를 활용하는 layer.
가장 기본인 SQL(Structured Query Language : DB의 데이터를 입력,조회,수정,삭제 할 수 있는 명령어 모음), 리포트(ex. excel 표, 자료), OLAP(On Line Analytical Processing).

RDW

실시간 데이터(Real-Time Data)
: 시간 데이터는 수집 후 즉시 전달되는 정보
실시간 데이터는 동적 데이터와 다르다.
—> 실시간 데이터는 동적 또는 정적일 수 있다.

ADW

ADW(Analytical Data Warehouse)
: 데이터 분석(Data Analysis)
유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를
정리, 변환, 모델링하는 과정이다.

ETL

: ETL이란 데이터 웨어하우스 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터 웨어하우스(DW)에 적재하는 모든 과정. 일반적으로 발생하는 데이터 변환에는 필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등의 다양한 작업이 포함

  • Extract : 하나 또는 그 이상의 데이터 원천들로 부터 데이터 획득

  • Transform: 데이터 클렌징, 형식 변환 및 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스룰 적용 등

  • Load: 변형 단계의 처리가 완료된 데이터를 특정 목표 시스템에 적재


ETL을 적용 및 확장한 개념에 추가로 알아보자.

DM

데이터마트(Data Mart, DM)
: DW 환경에서 정의된 접근계층으로, DW에서 데이터를 꺼내 사용자에게 제공하는 역할
DM은 DW의 부분이며, 보통 특정한 조직 또는 팀에서 사용하는 것을 목적으로 한다.

데이터 웨어하우징

데이터 웨어하우징(Data Warehousing)
: 데이터 수집 및 처리에서 도출되는 정보의 활용에 이르는 일련의 프로세스


Reference

https://kr.analysisman.com/2020/08/cloud-dw-cdp.html
https://ko.myservername.com/metadata-data-warehouse-explained-with-examples
https://m.blog.naver.com/obzen/221669060933

0개의 댓글