[Snowflake] Snowflake 데이터 플랫폼 구조

차지예·2026년 5월 4일

Snowflake

목록 보기
1/49
post-thumbnail

목차

  1. Data Warehouse — 분석의 기반
  2. Data Engineering — 데이터를 흐르게
  3. Relational Database — 트랜잭션까지
  4. Data Lake — 모든 형태의 데이터
  5. AI / Data Science — 데이터 위의 AI
  6. Data Applications — 서비스로의 확장

1. Data Warehouse — 분석의 기반

왜 핵심 영역인가?

Snowflake의 출발점입니다. 클라우드 환경에서 저장과 연산을 분리해 기존 온프레미스 DW(Teradata, Oracle 등)의 한계를 극복한 영역입니다.

핵심 기능

기능설명
Structured & Relational Data정형 관계형 데이터를 효율적으로 저장·조회
Databases / Schemas / Tables계층적 구조로 데이터를 체계적으로 관리
ANSI Standard SQL기존 SQL 사용자가 별도 학습 없이 즉시 사용 가능
Complex Queries수억 건 데이터의 복잡한 집계·조인 쿼리도 고속 처리

Snowflake 차별점

  • Storage와 Compute 분리 → 저장 비용과 연산 비용을 독립적으로 최적화
  • Multi-cluster Warehouse → 동시 사용자가 급증해도 성능 저하 없음
  • 자동 스케일링 → 쿼리 부하에 따라 리소스 자동 조절

2. Data Engineering — 데이터를 흐르게

왜 핵심 영역인가?

데이터는 단순히 저장되는 것이 아니라 지속적으로 수집·변환·적재되어야 합니다. Snowflake는 외부 ETL 도구 없이도 플랫폼 내에서 파이프라인을 구성할 수 있습니다.

핵심 기능

기능설명
COPY INTO외부 스토리지(S3, GCS 등)에서 대량 데이터를 배치로 로딩
Snowpipe새 파일이 감지되면 자동으로 실시간 연속 로딩 (이벤트 기반)
TasksSQL 또는 프로시저를 스케줄에 따라 자동 실행 (cron 방식)
Streams테이블의 변경 사항(INSERT/UPDATE/DELETE)을 캡처하는 CDC 기능
OpenflowSnowflake 내장 데이터 통합 및 흐름 오케스트레이션
Managed DBT코드 기반 데이터 변환 도구 DBT를 Snowflake 안에서 직접 실행

Snowflake 차별점

  • 외부 Airflow, Kafka 없이도 내부에서 파이프라인 완결 가능
  • Tasks + Streams 조합으로 실시간에 가까운 데이터 처리 구현
  • Openflow로 데이터 흐름 오케스트레이션까지 내재화

3. Relational Database — 트랜잭션까지

왜 핵심 영역인가?

기존 Snowflake는 분석(OLAP) 중심이었지만, 운영계 트랜잭션(OLTP) 워크로드까지 처리할 수 있도록 확장되었습니다. 이로 인해 별도의 운영 DB가 필요 없어집니다.

핵심 기능

기능설명
ACID Transactions원자성·일관성·격리성·지속성으로 데이터 무결성 보장
High-levels of Concurrency수천 명이 동시에 읽기/쓰기해도 성능 유지
Unistore (HTAP)OLTP(트랜잭션) + OLAP(분석)을 하나의 엔진에서 동시 처리
Hybrid Tables행 기반 저장 방식으로 빠른 단건 조회·업데이트 지원

Snowflake 차별점

  • 기존에는 MySQL·PostgreSQL(운영 DB)과 분석 DW를 별도로 운영해야 했음
  • Unistore + Hybrid Tables로 단일 플랫폼에서 통합 처리 가능
  • 데이터 복제·동기화 비용 제거

4. Data Lake — 모든 형태의 데이터

왜 핵심 영역인가?

현실의 데이터는 깔끔한 테이블 형태만 있지 않습니다. JSON, 로그, 이미지 메타데이터 등 다양한 형태의 데이터를 유연하게 처리해야 합니다.

핵심 기능

기능설명
Scalable Storage & Compute저장과 연산을 독립적으로 확장 → 비용 효율 극대화
Schema-on-read데이터 저장 시 스키마를 강요하지 않고, 읽을 때 유연하게 적용
Semi-structured DataJSON, Avro, Parquet, ORC 등 반정형 데이터를 SQL로 직접 쿼리
Open Lakehouse: IcebergApache Iceberg 포맷 지원 → 오픈소스 생태계와 완전 호환

Snowflake 차별점

  • VARIANT 타입으로 JSON을 별도 파싱 없이 SQL로 직접 조회
  • Iceberg 지원으로 벤더 종속 없이 Spark, Trino 등 다른 도구와 데이터 공유
  • Data Warehouse + Data Lake를 하나의 플랫폼(Lakehouse)으로 통합

5. AI / Data Science — 데이터 위의 AI

왜 핵심 영역인가?

AI/ML은 데이터가 핵심인데, 기존에는 데이터를 외부 환경으로 꺼내서 모델을 학습해야 했습니다. Snowflake는 데이터가 있는 곳에서 바로 AI를 실행할 수 있게 합니다.

핵심 기능

기능설명
Snowflake Cortex내장 LLM·ML 함수 (감성 분석, 요약, 번역 등을 SQL로 실행)
Snowpark PythonPython 코드를 Snowflake 내부에서 실행 → 데이터 이동 없이 처리
StreamlitPython 기반 대화형 데이터 앱·대시보드를 Snowflake 안에서 배포
End-to-end ML with Notebooks데이터 탐색 → 모델 학습 → 배포까지 노트북 환경에서 완결

Snowflake 차별점

  • 데이터를 꺼내지 않고 Snowflake 안에서 ML 실행 → 보안·거버넌스 유지
  • Cortex로 SQL 한 줄로 LLM 기능 사용 가능
    SELECT SNOWFLAKE.CORTEX.SUMMARIZE(review_text) FROM customer_reviews;
  • Snowpark으로 Python 개발자가 Snowflake를 네이티브 ML 플랫폼으로 활용

6. Data Applications — 서비스로의 확장

왜 핵심 영역인가?

Snowflake를 단순 분석 도구가 아닌 애플리케이션 개발 플랫폼으로 확장합니다. 데이터와 앱 로직을 하나의 플랫폼에서 관리할 수 있습니다.

핵심 기능

기능설명
Connectors & DriversJDBC, ODBC, Python, Node.js 등 다양한 언어·도구와 연결
User Defined Functions (UDF)SQL 안에서 사용자가 직접 만든 함수를 실행
External UDFsAWS Lambda 등 외부 서비스를 Snowflake SQL에서 직접 호출
Stored Procedures복잡한 비즈니스 로직을 DB 내부에 저장하여 재사용

Snowflake 차별점

  • JavaScript, Python, Java 등 다양한 언어로 UDF·프로시저 작성 가능
  • External UDF로 외부 API·서비스를 SQL과 통합
  • Snowflake Marketplace와 결합하면 데이터 상품을 외부에 앱 형태로 제공 가능

마무리 — 6대 영역 한눈에 보기

영역한 줄 요약
Data Warehouse분석의 기반 — 정형 데이터를 빠르고 유연하게
Data Engineering데이터를 흐르게 — 수집·변환·적재 파이프라인 내재화
Relational Database트랜잭션까지 — OLTP + OLAP 단일 플랫폼 처리
Data Lake모든 형태 수용 — 반정형 데이터와 오픈 Lakehouse
AI / Data Science인사이트 추출 — 데이터 이동 없는 ML 전 사이클
Data Applications서비스로 확장 — 데이터 위에 앱을 구축

Snowflake의 강점은 각 영역이 별도 툴 없이 하나의 플랫폼 안에서 유기적으로 연결된다는 점입니다. 데이터를 수집하고, 변환하고, 저장하고, 분석하고, AI 모델로 만들고, 애플리케이션으로 배포하는 전 과정이 단일 거버넌스 아래 작동합니다.

0개의 댓글