데이터레이크
AWS의 서비스들로 구성해놨습니다.
1. Cloud Storage ( AWS S3, GCS, Azure Blob Storage)
2. ETL ( AWS Glue)
3. 처리 및 분석( AWS EMR : Elastic MapReduce)
4. 카탈로그 및 메타데이터 관리 ( AWS Glue Data Catalog)
위의 클라우드 서비스들을 보면 알겠지만, 데이터레이크는 비정형(raw)데이터 를 모아놓는 것이다!!!
정적 파일(jpg) 로그 데이터, 센서 데이터 등등
근데 웹서버(nginx) conf 파일 Location에 staticfile(html) 등을 모아 놓는 것은
데이터 레이크가 아니다~ 아시죠 ?!?!?
데이터 웨어하우스
전사 차원에서 BI(Business Intelligence)로 활용하기 위해
데이터 마트
마트는 웨어하우스보다 작죠? 그래서 좀더 작은 단위인 부서에서 자체 구축하는 사례입니다
위의 DW / DM 구축을 클라우드 플랫폼(paas) 에서 구축한다면..?
돈이 많이 들지만, 책임 전가가 가능하고, 안정성이 높고 확장성이 용이하겠죠 ?ㅎㅎ
그래서 무슨 서비스냐?
AWS Redshift,
Google BigQuery,
Azure Synapse Analytics
가 있습니다.
클라우드 서비스를 빗대서 요약하면 데이터 레이크는 raw 데이터가 S3를 씁니다. 용도에 따라 맵리듀스 붙일 수도 있는데, 자체 하둡 구축할 수도 있고, EMR 쓸 수도 있습니다. 웨어하우스는 BI합니다. 마트는 부서에서 분석용으로 씁니다. RedShift 쓰면 서버리스 서비스라 저렴합니다 !!(비용 산정은 따로 해봐야합니다.)
S3, Redshift, EMR 짱이다!!