최근 기존 RDBMS 프로그램인 데이터 웨어하우스를 넘어서는 데이터들의 저장과 활용이 요구되는 상황에서 데이터레이크라는 새로운 저장 방식이 각광받고 있다고 하여 찾아본 자료를 정리해보고자 한다. 데이터 레이크(Data Lake)란? 모든 정형, 반정형, 비정형 및 이진 데이터를 순수한 형태로 저장할 수 있는 시스템을 말한다. 한마디로 "무엇이든 저장할 수 있는 중앙 집중식 데이터 저장소" 데이터를 먼제 정제, 구조화할 필요 없이! 그대로 저장한 뒤에, 필요할 때 필요에 맞게 추가적인 정제과정을 거쳐 머신러닝, 실시간 분석, 데이터 보드나 시각화 등을 하는 것이다. 즉 데이터레이크의 존재 이유는 데이터레이크 기반 분석 플랫폼이라고 할 수 있다. Data Lake 최종 목적 머신러닝(Machine Learning) 실시간 분석(real-time assay) 시각화(Visualization) 그렇다면 왜 데이터레이크 기반 분석 플랫폼인가?