데이터 레이크 ?
- 데이터 레이크는 조직에서 수집한 정형 · 반정형 · 비정형 데이터를 원시 형태(raw data)로 저장하는 단일한 데이터 저장소입니다.
- 아마존은 2019년 ‘갤럭시 데이터 레이크’를 구축했고요. 여러 팀이 데이터 레이크로 데이터를 옮기고 있죠. 부서별로 흩어진 데이터를 한 장소에 저장하면서 데이터 사일로를 개선했고요. 데이터를 종류에 상관없이 다 끌어올 수 있었습니다. 데이터를 한 장소에 모았기 때문에 이에 접근하기도 편리해졌고요. 방대하고 다양한 데이터를 활용, 머신러닝도 가속화했습니다. 데이터세트를 결합해서 더 정확한 모델을 학습하고 배치하기가 쉬워졌죠.
- 기업에서는 전통적으로 데이터를 데이터베이스와 데이터 웨어하우스****에 저장했는데요. 2010년대부터 빅데이터 시대를 맞아 데이터 레이크가 차세대 데이터 관리 플랫폼으로 떠올랐습니다.
사용하는 이유?
- 요즘 기업에서 데이터 레이크에 관심 갖는 이유는 뭘까? 먼저 부서별·분야별로 흩어진 데이터를 한데 모아 분석하면 조직 전체 시너지를 높일 수 있고요. 기업이 보유한 데이터를 최대한 활용해서 가치를 끌어내기에 유용합니다. IBM에 따르면, 기업에서 저장하는 데이터 약 80~90%가 텍스트·비디오·오디오 등 비정형 데이터라고 하죠. 데이터 웨어하우스는 정형 데이터를 저장하는 데 최적화돼 있습니다만. 데이터 레이크에는 비정형 데이터도 원시 형태로 저장할 수 있고요. 이를 분석하면 기업 경영에 주효한 인사이트를 풍부하게 얻을 수 있죠. 누구든 빅데이터로 가치를 만들고 싶다면 데이터 레이크를 알아두는 게 좋습니다. 이 글에서는 데이터 레이크 개념과 기능, 활용 분야를 짚고요. 대두 배경과 한계, 유의사항, 전망을 살펴보려고 합니다.
- 정형 데이터 : 형태가 있고 연산할 수 있는 데이터. ‘엑셀’ 같은 스프레드시트에 저장되는 형태, 수치, 기호, 도형 등이 그 예.
- *반정형 데이터 : 형태는 있지만 연산할 수 없는 데이터. 메일 등 통신 내용 기록 같은 로그 등이 그 예.
- **비정형 데이터 : 형태가 없고 연산할 수 없는 데이터. 인터넷 댓글, 영상, 음성 등이 그 예.
- ***데이터 웨어하우스(data warehouse) : 회사의 각 사업부문에서 수집된 모든 자료 또는 중요한 자료에 관한 중앙창고.
원시 데이터 (raw data) ?
- ‘데이터를 원시 형태로 저장한다’는 의미는 이렇습니다. ‘데이터를 특정 목적을 위해 처리하지 않고, 원래 형태 그대로 저장한다’는 건데요. 데이터 웨어하우스에 데이터를 저장하기 전에는 데이터에 어떤 형태와 구조(스키마*)가 있어야 합니다. 이를 부여하는 걸 ‘쓰기 스키마(schema on write)’라고 하죠. 데이터 레이크에 데이터를 저장할 때는 그럴 필요가 없습니다. 데이터를 원시 형태로 두고요. 나중에 이를 사용할 때, 데이터에 형태와 구조를 주죠. 이를 ‘읽기 스키마(schema on read)’라고 합니다.
데이터 레이크와 데이터 웨어하우스의 차이점?
- 첫째, 데이터 레이크에서는 데이터를 저장하기 전 이를 정제하지 않습니다. 데이터 웨어하우스에서는 데이터를 정제한 뒤, 이를 저장하고요.
- 둘째, 데이터 레이크에는 정형·반정형·비정형 데이터를 저장할 수 있죠. 데이터 웨어하우스는 정형 데이터를 저장하는 데 최적화됐습니다.
- 셋째, 데이터 레이크에는 미리 정의된 목적이 없는 데이터를 저장하는데요. 데이터 웨어하우스에 저장하는 데이터는 미리 정의된 목적이 있죠.
- 넷째, 데이터 레이크에서는 즉시 데이터***를 수집할 수 있는데요. 데이터 웨어하우스에서는 데이터를 정제하는 데 시간이 오래 걸려서 즉시 데이터를 수집할 수 없습니다.
- 다섯째, 데이터 레이크는 데이터 사이언티스트가 주로 이용하죠. 데이터 웨어하우스는 비즈니스 애널리스트가 주로 사용합니다. 여섯째, 데이터 레이크 환경설정은 유연합니다만. 데이터 웨어하우스는 고정됐죠.