학습주제
Snowflake 운영과 관리
설치, 운영, 관리
Redshift와의 비교
학습내용
이번엔 snowflake를 알아본다
sql 실행과 관계된 실습 중심
redshift와 굉장히 유사점 갖고 있음
상당히 스케일러블함
여기도 무료 시험판이 있다. (최대 400불, 최대 30일)
초과하면 서스펜디드 상태. 크레딧 카드 정보 입력하면 다시 사용가능
레드쉬프트 서버리스 때 다양한 환경설정을 했었음.
스키마, 테이블, ROLE, COPY, IAM, EXTERNAL TABLE(스펙트럼 사용, 이번엔 시연 X, 비슷한 기능은 있음)
사용자 권한 설정, 기타 기능들 알아본다
마지막으로 종료
14년에 시작. 얼마되지 않음. 빅데이터, 병렬처리기반으로 관련 기술로 만듦.
16년 후반에 뜨기 시작함
한화 70조 가치의 회사
글로벌 클라우드위에서 돌아도 스토리지 내에서 데이터 교환이 가능
우리 데이터가 여기 있고, 오픈해줄 때니 너네가 여기서 읽어.
스노우플레이크는 대중적인 데이터웨어하우스로 포지셔닝에 성공. 이걸 사용하는 기업들 간에는 아주 단순한 형태로 제공.
ETL SAAS도 제공
스토리지, 컴퓨팅 비용이 별도로 설정 사용한 만큼 돈을 냄
시스템이 알아서 부하에 맞게 스케일하는 구조
데이터 스큐이슈. 개발자로서는 몰라도 됨
비구조화 데이터 처리 강점.
머신러닝도 SQL 함수형태로 호출 가능
csv, Avro, Parquet 제공
s3, gc, azure
실시간 처리도 지원해줌
시간을 두고 레코드들이 어떻게 변해왔는지 보기 쉬움(레드쉬프트보다도)
ODBC와 JDBC는 데이터베이스와 애플리케이션 사이에서 데이터를 주고받기 위한 인터페이스입니다.
IT 바깥쪽의 회사들이 많이 씀. 사용하기도 쉽고, 고객 서포트 좋음. 멀티 클라우드, 크로스 리전 레플리케이션 기능 지원
클라우드를 기초로 하여,(스토리지) 그위에 스노우프레이크
계정 구성도를
레드쉬프트 때
dev -> raw_data, analytics, adhoc
account 하나 만들면 다수의 데이터 베이스, 다수의 스키마, 다수의 테이블 구조
마이크로소프트면 굉장히 많은 디비전이 있을 텐데 각각의 어카운트를 갖게하고 이를 organization을 시킴. 하부 조직, 지역별로 account를 생성시킴.
계정 구성이 유연함
중소규모면 account 1개로 시작
하나 그 이상의 어카운트 organization 간의 account들을 합쳐서 관리함
큰 회사들이 사용함.
보통은 account 1개로 충분. 다수의 데이터베이스 -> 다수의 스키마 -> 테이블, 뷰
데이터베이스는 PB단위까지, 컴퓨팅 리소스 -warehouse
가변비용 웨어하우스는 스토리지, 컴퓨팅 리소스가 분류되어 있음.
한 데이터베이스에 종족된 웨어하우스 구조는 아님
한 웨어하우스에 5개 데이터베이스. 이렇게 있을 수 있음
데모는
account를 만들고 별도의 데이터 베이스 하나 만들고, 앞서 레드쉬프트에서 만들었던것처럼
csv파일을 벌크 업데이트로 테이블에 레코드를 적재하고, 테이블로 CTAS로 적재해봄
데이터 쉐어링, 마켓플레이스
쉐어링 - 회사철학: 데이터를 카피하지 말고 공유해라, 카피는 네크워크를 타고 움직이기에 시간도 걸리고 비용도 걸림. 비슷한 지역에 있다면 그냥 데이터를 공유시킴. 물리적 단계에선 비슷할수 있지만, 그 사람이 엑세스 권한을 열고 내가 가서 사용하는 방식.
스토리지 레벨에서 공유. not 카피
이게 데이터 마켓플레이스의 기본이 됨.
갖고있는 데이터를 무료, 돈을주고 공유를 할 수 있게됨.
자기가 만든 정제된 데이터를 팔아 매출
미리 돈을 좀 냄 capacity
쓴만큼 on-demand
가장 싸고 기본 스탠다드, 엔터프라이즈, 비즈니스 크리티컬, VPS(공유 제약, 보안)
스노우플레이크가 한국에 들어옴. 영업 적극적임
세미 스트럭쳐드 데이터에 JSON
ARRAY타입이 있음
레드쉬프트와 비교하면 지원 타입이 더 강력함
nest된 스트럭처. 컬럼 밑에 컬럼같은 복잡한 구조를 처리 가능
레드쉬프트보다 강력함
비슷한게 빅쿼리