데이터 레이크

최민석·2022년 4월 26일
0

data science

목록 보기
6/12

데이터 레이크의 개요

데이터 레이크는 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리 유형
즉, 데이터를 원래 형태 그대로 저장하는 것

  • 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터 처리가 가능

  • 월별 판매 보고서, 지역별 판매 내역, 웹사이트 트래픽과 같은 비즈니스에서 일반적으로 사용되는 반복적인 보고 및 분석 유형에 적합


데이터 레이크의 필요성

원시 데이터를 변환하지 않은 채 일괄 처리나 스트리밍을 통해 데이터레이크로 이동이 가능

  • 총 소유 비용 절감
  • 데이터 관리 간소화
  • 인공지능 및 머신러닝 통합에 대비
  • 분석 속도 향상
  • 보안 및 거버넌스 향상

데이터 레이크 사용 사례

  • 미디어 및 엔터테인먼트

    스트리밍 음악, 라디오 및 팟캐스트를 제공하는 회사에서는 추천 시스템을 개선하면 사용자의 서비스 이용량이 늘고 그에 따라 광고 매출도 늘어나므로 수익을 늘릴 수 있습니다.

  • 전자통신

    다국적 전자통신 회사에서는 고객 이탈을 줄이는 이탈 경향 모델을 구축하여 비용을 절감할 수 있습니다.

  • 금융 서비스

    투자 회사에서는 데이터 레이크를 사용하여 머신러닝을 강화할 수 있으므로 실시간 시장 데이터가 확보되는 즉시 포트폴리오 위험을 관리할 수 있습니다.

데이터 레이크의 한계

  • 잘못 관리한 데이터 레이크가 될 경우, 믿고 쓰기 어려워지는 '데이터 늪'에 빠지게 됨
  • 보안 및 엑세스 제어 문제, 프라이버시 보안 요구조건 충족 힘듦
  • 데이터 레이크 내 규모가 커질수록 쿼리 엔진 성능 저하될 우려가 있으며 메타데이터로 인한 병목현상 발생 가능성

[출처]
구글 클라우드, 데이터 레이트 소개 : https://cloud.google.com/learn/what-is-a-data-lake?hl=ko
삼성 sds 인사이트 리포트 : https://www.samsungsds.com/kr/insights/big_data_lake.html

profile
학습기록

0개의 댓글