2024 1분기 Snowflake Parter Network base camp에 다녀왔습니다.
이후 현장에서 들은 교육 내용을 정리해보았습니다!
❄️ 1. Snowflake란?
클라우드 기반의 데이터 플랫폼
클라우드에 있는 무한한 자원을 활용할 수 있게 만들어 놓은 플랫폼
❄️ 2. Snowflake의 등장배경
서비스마다 데이터가 분산되어 있어 이를 모아 분석하기까지 많은 공수가 듦
- 클라우드의 무한한 자원(스토리지 등)을 이용해 데이터 사일로를 제거가 1순위
- 데이터 사일로가 있는 환경에서 발생하는 데이터 이동, 엔지니어 등의 숨은 비용 제거
- 하나의 데이터 거버넌스를 준수
데이터 거버넌스 = 데이터 활용 방안과 사용자, 보안 등에 대한 규정
❄️ 3. Snowflake의 모토
데이터 적재 후 바로 분석!
하드웨어 관리? 소프트웨어 관리? no!
❄️ 4. Snowflake 플랫폼 아키텍쳐
1. Oprimized Storage
- 모든 데이터를 담는 storage
- 정형 데이터, 반정형 데이터, 비정형 데이터를 담을 수 있음
2. Elastic multi-cluster compute
- 데이터가 있으면 분석을 해야 함
- 분석을 하기 위해서는 항상 컴퓨트(하드웨어)가 필요
- 이 하드웨어를 엘락스틱하게 멀티 클러스터(스케일 업, 아웃, 등)가 가능하게 만든 것
- storage와 컴퓨트를 분리하여 요러 요구를 동시에 돌릴 수 있음
- 요건이 생기면 warehouse를 만들어서 바로 사용하면 됨
3. Cloud services
- snowflake의 brain
- metadata를 관리하고 있기 때문에 쿼리가 수행될 때 어떤 데이터가 어디 있는지 알고 있음
- 이 뿐만 아니라 hw, 옵티마이즈, access control 등 모든 걸 관리함
3번까지가 snowflake의 기반
4. Snowgrid
- snowflake 내의 account간 global network
- 전세계의 snowflake 계정을 활용할 수 있도록 만든 것
- 3사 클라우드(google, aws, azure)를 모두 지원
- 데이터 이동 시에도 계정만 있다면 쿼리 2-3줄을 이용해 타 지역 데이터를 가져올 수 있음
다음 게시글에서는 Snowflake에 대해 더 자세히 다뤄보겠습니다 😊