데이터 웨어하우스란?

streetcat·2021년 10월 4일
1

데이터 웨어하우스 정의

데이터 웨어하우스란 마케팅 자동화, 고객 관리, POS와 같은 기업 운영에서 나오는 정형/반정형 데이터의 레포팅/분석 등을 수행하는 데에 쓰이는 엔터프라이즈 시스템으로, 임시 분석 또는 커스텀 보고서 생성에 적합하다. 데이터 웨어하우스는 현재 데이터부터 과거 데이터까지 한 곳에 모아놨기에 시간 경과에 따른 분석을 가능하게 하며, 따라서 비즈니스 인텔리전스에 핵심적이다. (GCP 참고)

위의 설명은 다소 까다롭다. 조금 더 용어정리를 해보고, 더 쉽게 바꿔보겠다.

용어 정리

POS :
Point Of Sale 의 줄임말로, 판매 관련 데이터를 일괄적으로 관리하고 고객정보를 수집하는 시스템

정형 데이터 (structured data) :
csv 등의 잘 정리된 데이터

반정형 데이터 (semi structured data) :
json, html 등의 반쯤 잘 정리된 데이터

비즈니스 인텔리전스 (business intelligence) :
기업에서 데이터를 수집, 관리, 분석하고 활용해 의사결정을 하는 방법에 대해 연구하는 학문

쉬운 정리

위의 내용을 사용해 다시 한 번 정리해보자면, 데이터 웨어하우스란 기업에서 마케팅, 판매 관리, 고객 관리 등의 과정에서 나오는 데이터를 관리하는 시스템. 시간 경과에 따른 데이터를 보고 기업이 의사결정을 돕는 역할을 한다.

데이터 웨어하우스가 필요한 경우

회사 업무가 아래 중 하나의 경우에 해당되면, 데이터 웨어하우스의 활용이 필요할 수 있다.

  • 데이터가 다양한 플랫폼에서 생성될 경우
  • 빅데이터 분석 및 시각화가 실시간으로 필요할 경우
  • 머신러닝/AI 가 활용될 경우
  • 분석 스트리밍이 필요할 경우
  • 커스텀 보고 생성 또는 임시 분석(ad hoc analysis)이 필요할 경우
  • 데이터 마이닝
  • 데이터 사이언스

데이터 웨어하우스의 활용

1. 데이터 사일로 해소

데이터 사일로 발생 시 데이터를 다양한 소스에서 끌어와 한 곳에 집중시켜 관리 및 분석에 용이하게 함.

데이터 사일로 (siloed data) 정의

각 부서, 브랜치별로 데이터가 일치하지 않는 증상

2. 리얼타임으로 의사결정

코스트 감소, 이익 효율화 등을 위해 실시간으로 데이터를 분석해 의사결정을 도움

3. 커스텀 리포팅 및 애드혹 분석

운영 서버와 관리 서버의 분리 및 데이터의 보관을 통해 운영서버를 건드리지 않은 채 데이터에 접근하거나 보고에 사용할 수 있음

4. 머신 러닝, AI 와 함께 활용

과거 및 실시간 데이터 수집을 통해 예상 트래픽, 관련 제품 추천 서비스 등을 제공할 수 있음.

데이터 웨어하우스에 클라우드 활용할 때 장점

1. 웨어하우스 관리의 측면

관리의 아웃소싱을 통해 운영을 간편화하고 개발팀이 클라우드 관리에 힘을 덜 쓰게 해줄 수 있음

2. 보다 안정적으로 업타임 유지 가능

클라우드 제공자들은 개인 서버보다 더 나은 업타임을 제공하며, 클라우드 또한 안정적임. 그에 반해 개인 서버는 리소스 제한이 있기에 퍼포먼스에 제약이 있을 수 있음

3. 규모 조절 쉬움

비즈니스 수요에 따라 규모를 줄이거나 늘리기가 쉬움.

4. 비용이 적게 나옴

클라우드 제공자의 유형에 따라 다르나, 보통 사용량 및 사용 시간 기준으로 비용을 책정함. 반면 직접 데이터 웨어하우스를 운영할 시 24시간 서버를 구동시키면서 발생하는 막대한 비용을 온전히 감수해야 함.

5. 리얼타임 인사이트를 제공함

클라우드 데이터 웨어하우스 사용 시 실시간으로 필요한 데이터를 확인하고 분석하여 보다 효율적인 의사결정이 가능하도록 함.

6. 머신러닝, AI initiative 제공

머신러닝, AI 에 대한 접근 및 활용을 더 쉽게 만들어줌.

데이터 레이크

흔히 데이터 웨어하우스와 혼동하기 쉬운 개념이 데이터 레이크이다. 물론 의사결정에 도움을 주며, 데이터 사일로를 해소할 수 있고, 머신러닝과 함께 활용 시 다양한 분석을 진행할 수 있다는 공통점이 있기는 하다.

다만 웨어서 언급했듯이 데이터 웨어하우스가 다루는 데이터는 정형 데이터 또는 반정형 데이터인 반면, 데이터 레이크는 비정형 데이터를 다룬다. 여기서 비정형 데이터란, 유튜브 댓글과 같이 정제되지 않은 데이터를 의미한다. 이러한 데이터가 별도의 처리 없이 원시 형태(raw data)로 저장되고 데이터 사이언티스트에게 활용되는 것이 데이터 레이크라는 것이다.

하둡, 클라우드 등이 데이터 레이크 구축에 쓰이나, 이에 대해선 나중에 충분히 공부한 다음 자세히 써보겠다. 일단 다루는 데이터 종류가 다르다는 것만 적고 넘어가면 될 것 같다.

profile
대학 다니는 백수 개발자입니다.

0개의 댓글