DW, DATALAKE, DATAFABRIC 란??

POOHYA·2022년 12월 22일

DATA WAREHOUSE

‘정보에 입각한 의사결정을 내릴 수 있도록 구축된 중앙저장소’

DW는 여러 OLTP에서 가져온 정형, 반정형 데이터를 분석하고 보고하는데 사용되도록 정제하여 저장한 엔터프라이즈 시스템이다. DB는 데이터를 분석 및 통계를 하기에 너무 작은 단위이어서 여러 개의 DB가 포함된 DW의 필요성이 대두되었다. DW는 현재 데이터와 과거 데이터를 모두 한곳에 저장할 수 있으며, 시간 흐름에 따른 장기간의 데이터 동향을 확인할 수 있도록 설계 되었으므로 BI의 주요 구성요소로 꼽힌다. OLTP로 오랜 동안 쌓인 데이터를 ETL을 통해 DW로 통합 구축하고 OLAP로 다양하게 분석, 추출한다.

DATA WAREHOUSE 4가지 특징

subject oriented 주제지향
기존 DB는 기능, 업무 처리 중심으로 설계되지만 DW는 이용자가 이해하기 쉬운 주제 중심으로 구성된다
integrated 통합성
기존 운영시스템은 다량의 데이터를 중복으로 관리하지만 DW는 데이터 속성의 이름, 코드의 구조 등의 일관성을 유지하며 전사적 관점에서 하나로 통합되어 구성된다.
time variant 시계열
기존DB는 사용자가 사용하는 현재 시간을 기준으로 최신의 값을 유지하지만 DW는 일정 기간 수집된 데이터를 갱신 없이 보관하여 일, 월, 분기, 년 등과 같은 기간 관련 정보를 함께 저장한다.
nonvolatile 비휘발성
기존DB는 추가, 삭제, 변경 등과 같은 갱신 작업이 레코드 단위로 발생하지만 DW는 일단 적재가 되면 읽기 전용의 스냅샷 데이터로 존재

장점

  1. 여러 소스의 데이터 통합, 과거 데이터 분석이 가능하다
  2. 트랜잭션 데이터베이스와 분석 처리를 분리하여 두 시스템 모두의 성능이 향상된다

단점

  1. 사전 정의된 스키마에 맞춰서 데이터를 변환할 의무가 있다
  2. 제한된 질문에만 답변이 가능하며 전사 차원의 사용에 적합하다

DATALAKE

‘가공되지 않은 다양한 종류의 데이터를 한 곳에 모은 저장소의 집합’

조직에서 수집한 정형, 반정형, 비정형 데이터를 특정 방식으로 모델링하고 처리할 필요가 없이 원시 형태(raw data)로 저장하는 단일한 데이터 저장소이다. 크기 제한을 무시하고 다양한 데이터를 처리할 수 있다. 데이터 레이크는 빅 데이터 솔루션과 쉽게 통합할 수 있어서 데이터 레이크에 머신러닝 모델을 배포하고 고급 알고리즘을 실행할 수 있다. 데이터 레이크는 상시 사용 중인 데이터의 아카이브 및 백업으로 사용할 수 있다. 또한 DW를 구축하는 것에 비해 더 저렴한 솔루션으로, 어디에 적용할지 정립하지 않아도 가능한 모든 데이터를 수집할 수 있습니다.
데이터 레이크는 DW 보완재이지 대체재는 아니다. 두 플랫폼 특징과 목적도 다르기에 필요에 맞는 걸 골라 사용하거나 함께 융합하여 사용하는 것이 좋다.

DATALAKE 특징

  • DFS (분산 파일 시스템) 내에 보관되는 단일 공통 데이터 저장소
    데이터를 원시 형식으로 유지하고 데이터 수명주기 동안 데이터 및 상대적 의미에 대한 변경 사항을 캡처한다. 이 방식은 확인 및 내부 감사에 유용하다.
  • 계획 및 작업 스케줄링 기능의 통합
    데이터 거버넌스 도구를 통해 분석 워크플로가 필요한 수준의 데이터 액세스 및 컴퓨팅 성능을 보유하도록 한다

장점

  1. 각종 서비스에서 다양한 데이터가 방대하게 생성되고 이를 효율적으로 관리할 수 있다
  2. 기업이 다양한 데이터소스를 토대로 의사결정을 내리는데 도움을 준다
  3. 부서별, 분야별로 흩어진 데이터를 한데 모아 조직에서 시너지를 강화하도록 지원한다
  4. DW대비 운영비가 경제적이다
  5. 큰 비용을 들이지 않고 쿼리속도를 높일 수 있다

단점

  1. 감독이나 거버넌스가 없어 잘못 관리 된 데이터레이크는 ‘데이터 늪’이 될 위험성이 있다
  2. 보안과 엑세스 제어에 취약하다
  3. 데이터 규모에 따른 전통 쿼리엔진의 성능저하가 올 수 있다.

DATAFABRIC

‘유연하고 안전하며 적응력이 뛰어난 통합 데이터 아키텍처’

데이터 저장소를 중앙에 두는 대신, 융합된 환경을 만들고 인공 지능과 메타데이터 자동화를 사용하여 데이터를 관리, 분석 및 활용한다. 최적화를 통해 스토리지에서 상당한 비용을 절약하면서도 최고 수준의 암호화로 데이터를 보호할 수 있다. 데이터패브릭은 전반적인 성능을 향상시키고 비용을 제어하며 인프라 구성 및 관리를 단순화한다. 기존의 검색 가능하고 참조된 메타데이터를 지속해서 분석하여, 하이브리드 및 멀티 클라우드 플랫폼을 포함한 모든 환경에서 통합되고 재사용 가능한 데이터세트를 설계, 구축 및 활용하도록 해준다.

DATAFABRIC 특징

  • 데이터 통합
    데이터와 애플리케이션이 어디에 있든 상관없이 이를 모니터링하고 관리할 수 있다. 데이터 통합 기술을 기반으로 여러 출처의 실시간 데이터를 특정 위치로 식별하고 통합한다
  • 스마트 데이터 카탈로그
    데이터 카탈로그는 기업이 보유한 모든 데이터의 자세한 인벤토리입니다 데이터 패브릭이 방대한 양의 정보를 통합함에 따라 데이터 카탈로그는 메타데이터를 유지하여 데이터베이스 엔지니어, 비즈니스 사용자 등을 포함한 데이터 소비자가 데이터를 찾고 이해하고, 계보를 추적하고, 평가 및 관리하는 등의 작업을 수행할 수 있도록 지원한다
  • 동적 메타데이터 관리
    데이터 패브릭은 일반적으로 메타데이터를 자동으로 감지, 분석, 수집 및 활성화하는 데 도움이 되는 AI 기능을 사용한다
  • 데이터 거버넌스
    데이터 거버넌스는 데이터 소비자가 메타데이터 활성화 기능으로 인해 자동으로 적용되는 각 정책(액세스 정책, 마스킹 정책, 데이터 품질 정책 등)의 도움을 받아 중앙 집중식으로 다양한 환경에서 일관되게 구현되도록 해준다.

장점

  1. 셀프 서비스 데이터 사용 및 협업을 지원한다
  2. 활성화된 메타데이터를 통해 거버넌스, 보호 및 보안 자동화되어있다
  3. 데이터 엔지니어링 테스크 자동화 및 하이브리드 클라우드 리소스 간 데이터 통합의 강화

단점

  1. 아직 성숙한 솔루션이 없다
  2. IT 및 비즈니스 사용자의 협력이 불충분하면 비용이 낭비될 수 있다
profile
김효주

0개의 댓글