Snowflake가 클라우드 데이터웨어하우스로 갖는 특징에 대해 알아보는 글이다.
2014년에 클라우드 기반 데이터웨어하우스로 시작됨 (2020년 상장)
스토리지와 컴퓨팅 인프라가 별도로 설정되는 가변 비용 모델
SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해줌
CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원
배치 데이터 중심이지만 실시간 데이터 처리 지원
Time Travel : 과거 데이터 쿼리 기능으로 트렌드를 분석하기 쉽게 해줌
웹 콘솔 이외에도 Python API를 통한 관리/제어 가능
자체 스토리지 이외에도 클라우드 스토리지를 외부 테이블로 사용 가능
대표고객: Siemens, Flexport, Iterable, Affirm, PepsiCo, ...
멀티 클라우드와 다른 지역에 있는 데이터 공유 (Cross-Region Replication) 기능 지원
Snowflake의 계정 구성도 : Organization -> 1 + Account => 1 + databases
Numeric: TINYINT, SMALLINT, INTEGER, BIGINT, NUMBER, NUMERIC, DECIMAL, FLOAT, DOUBLE, REAL.
Boolean: BOOLEAN.
String: CHAR, VARCHAR, TEXT, BINARY, VARBINARY.
Date and Time: DATE, TIME, TIMESTAMP, TIMESTAMP_LTZ, TIMESTAMP_TZ.
Semi-structured data: VARIANT (JSON, OBJECT).
Binary: BINARY, VARBINARY.
Geospatial: GEOGRAPHY, GEOMETRY.
Array: ARRAY.
Object: OBJECT.