[빅데이터] DATA : Lake / WareHouse / Mart

김진만·2023년 7월 6일
0

데이터레이크

AWS의 서비스들로 구성해놨습니다.

1. Cloud Storage ( AWS S3, GCS, Azure Blob Storage)

2. ETL ( AWS Glue)

3. 처리 및 분석( AWS EMR : Elastic MapReduce)

4. 카탈로그 및 메타데이터 관리 ( AWS Glue Data Catalog)

위의 클라우드 서비스들을 보면 알겠지만, 데이터레이크는 비정형(raw)데이터 를 모아놓는 것이다!!!

정적 파일(jpg) 로그 데이터, 센서 데이터 등등

근데 웹서버(nginx) conf 파일 Location에 staticfile(html) 등을 모아 놓는 것은

데이터 레이크가 아니다~ 아시죠 ?!?!?

데이터 웨어하우스

전사 차원에서 BI(Business Intelligence)로 활용하기 위해

데이터 마트

마트는 웨어하우스보다 작죠? 그래서 좀더 작은 단위인 부서에서 자체 구축하는 사례입니다

위의 DW / DM 구축을 클라우드 플랫폼(paas) 에서 구축한다면..?

돈이 많이 들지만, 책임 전가가 가능하고, 안정성이 높고 확장성이 용이하겠죠 ?ㅎㅎ

그래서 무슨 서비스냐?

AWS Redshift,

Google BigQuery,

Azure Synapse Analytics

가 있습니다.

클라우드 서비스를 빗대서 요약하면 데이터 레이크는 raw 데이터가 S3를 씁니다. 용도에 따라 맵리듀스 붙일 수도 있는데, 자체 하둡 구축할 수도 있고, EMR 쓸 수도 있습니다. 웨어하우스는 BI합니다. 마트는 부서에서 분석용으로 씁니다. RedShift 쓰면 서버리스 서비스라 저렴합니다 !!(비용 산정은 따로 해봐야합니다.)

S3, Redshift, EMR 짱이다!!

profile
충분한 전기와 컴퓨터 한 대와 내 이 몸만 남아 있다면 지구를 재건할 수 있습니다.

0개의 댓글