데이터 레이크 (Data Lake) 개요

마루스·2024년 2월 21일
0

bigdata

목록 보기
2/3

Data Lake와 Data Warehouse의 차이


  • 기존의 Data Warehouse (DW)는 RDBMS의 structured 데이터 형식을 지원하고 RDBMS 데이터 소스로부터 주기적으로 Batch 데이터를 적재한다.
  • Data Lake (DL)는 structured, semi-structured, unstructured 유형의 모든 raw data를 변환하지 않은 채 batch처리나 streaming을 통해 저장, 처리 보호할 수 있는 중앙 집중식 저장소이다.
  • 빅데이터란 거대한 규모(volume), 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터인데, 센서, 웹데이터, 연구 등으로 다양한 종류의 데이터가 생성되며 기업 데이터의 80~90%가 semi-structured, unstructured 데이터이다. DL은 이런 다양한 데이터를 저장하기 위해 존재한다.
  • 즉 DW는 데이터 적재 전 구조 등을 신중하게 변환 (schema on write, ETL (extract-transform-load과정)하고, DL은 데이터를 적재하고 사용자가 데이터를 읽을때 필요한 경우에만 형태를 변환 (schema on read, Hadoop, NoSQL)한다.
  • DL은 성능보다 storage volume 중시하고 DW는 쿼리 성능을 더 중시한다.
  • DL은 주로 대규모 이지만 상용 하드웨어를 사용하여 DW보다 저렴하다.
  • DW와 DL은 근본적으로 다른 시스템이며 빅데이터를 위한 storage repository라는 점만 유사하다.

Data Lake의 초창기 역사


  • 2010년 Pentaho사의 CTO인 James Dixon에 의해 raw data를 하나의 source에 저장하고 다양한 고객의 요구사항을 만족시키기 위한 목적으로 DL이 처음 제안되었다
    • 이로써 기존 Data Warehouse나 Data Mart처럼 raw data를 표준형태로 전처리하는 값비싼 과정을 거치지 않아도 된다.
  • 2014년 Gartner사는 DL이 meta data나 data governance없이 운영되면 서로 다른 데이터가 모아져서 관리가 어려운 “Data Swamp”로 전락할 수 있다고 경고했다. 그 이유는 아래와 같다.
    • raw data의 의미론(sematics)이나 데이터 품질을 알 수 없다
    • dataset의 출처나 다른 dataset과의 연결관계를 알 수 없다.
profile
세상의원리

0개의 댓글