[Snowflake] Snowflake 데이터 플랫폼 구조

차지예·2026년 5월 4일

snowflake 데이터 엔지니어

Snowflake

목록 보기

1/49

1. Data Warehouse — 분석의 기반

왜 핵심 영역인가?

Snowflake의 출발점입니다. 클라우드 환경에서 저장과 연산을 분리해 기존 온프레미스 DW(Teradata, Oracle 등)의 한계를 극복한 영역입니다.

핵심 기능

기능	설명
Structured & Relational Data	정형 관계형 데이터를 효율적으로 저장·조회
Databases / Schemas / Tables	계층적 구조로 데이터를 체계적으로 관리
ANSI Standard SQL	기존 SQL 사용자가 별도 학습 없이 즉시 사용 가능
Complex Queries	수억 건 데이터의 복잡한 집계·조인 쿼리도 고속 처리

Snowflake 차별점

Storage와 Compute 분리 → 저장 비용과 연산 비용을 독립적으로 최적화
Multi-cluster Warehouse → 동시 사용자가 급증해도 성능 저하 없음
자동 스케일링 → 쿼리 부하에 따라 리소스 자동 조절

2. Data Engineering — 데이터를 흐르게

왜 핵심 영역인가?

데이터는 단순히 저장되는 것이 아니라 지속적으로 수집·변환·적재되어야 합니다. Snowflake는 외부 ETL 도구 없이도 플랫폼 내에서 파이프라인을 구성할 수 있습니다.

핵심 기능

기능	설명
COPY INTO	외부 스토리지(S3, GCS 등)에서 대량 데이터를 배치로 로딩
Snowpipe	새 파일이 감지되면 자동으로 실시간 연속 로딩 (이벤트 기반)
Tasks	SQL 또는 프로시저를 스케줄에 따라 자동 실행 (cron 방식)
Streams	테이블의 변경 사항(INSERT/UPDATE/DELETE)을 캡처하는 CDC 기능
Openflow	Snowflake 내장 데이터 통합 및 흐름 오케스트레이션
Managed DBT	코드 기반 데이터 변환 도구 DBT를 Snowflake 안에서 직접 실행

Snowflake 차별점

외부 Airflow, Kafka 없이도 내부에서 파이프라인 완결 가능
Tasks + Streams 조합으로 실시간에 가까운 데이터 처리 구현
Openflow로 데이터 흐름 오케스트레이션까지 내재화

3. Relational Database — 트랜잭션까지

왜 핵심 영역인가?

기존 Snowflake는 분석(OLAP) 중심이었지만, 운영계 트랜잭션(OLTP) 워크로드까지 처리할 수 있도록 확장되었습니다. 이로 인해 별도의 운영 DB가 필요 없어집니다.

핵심 기능

기능	설명
ACID Transactions	원자성·일관성·격리성·지속성으로 데이터 무결성 보장
High-levels of Concurrency	수천 명이 동시에 읽기/쓰기해도 성능 유지
Unistore (HTAP)	OLTP(트랜잭션) + OLAP(분석)을 하나의 엔진에서 동시 처리
Hybrid Tables	행 기반 저장 방식으로 빠른 단건 조회·업데이트 지원

Snowflake 차별점

기존에는 MySQL·PostgreSQL(운영 DB)과 분석 DW를 별도로 운영해야 했음
Unistore + Hybrid Tables로 단일 플랫폼에서 통합 처리 가능
데이터 복제·동기화 비용 제거

4. Data Lake — 모든 형태의 데이터

왜 핵심 영역인가?

현실의 데이터는 깔끔한 테이블 형태만 있지 않습니다. JSON, 로그, 이미지 메타데이터 등 다양한 형태의 데이터를 유연하게 처리해야 합니다.

핵심 기능

기능	설명
Scalable Storage & Compute	저장과 연산을 독립적으로 확장 → 비용 효율 극대화
Schema-on-read	데이터 저장 시 스키마를 강요하지 않고, 읽을 때 유연하게 적용
Semi-structured Data	JSON, Avro, Parquet, ORC 등 반정형 데이터를 SQL로 직접 쿼리
Open Lakehouse: Iceberg	Apache Iceberg 포맷 지원 → 오픈소스 생태계와 완전 호환

Snowflake 차별점

VARIANT 타입으로 JSON을 별도 파싱 없이 SQL로 직접 조회
Iceberg 지원으로 벤더 종속 없이 Spark, Trino 등 다른 도구와 데이터 공유
Data Warehouse + Data Lake를 하나의 플랫폼(Lakehouse)으로 통합

5. AI / Data Science — 데이터 위의 AI

왜 핵심 영역인가?

AI/ML은 데이터가 핵심인데, 기존에는 데이터를 외부 환경으로 꺼내서 모델을 학습해야 했습니다. Snowflake는 데이터가 있는 곳에서 바로 AI를 실행할 수 있게 합니다.

핵심 기능

기능	설명
Snowflake Cortex	내장 LLM·ML 함수 (감성 분석, 요약, 번역 등을 SQL로 실행)
Snowpark Python	Python 코드를 Snowflake 내부에서 실행 → 데이터 이동 없이 처리
Streamlit	Python 기반 대화형 데이터 앱·대시보드를 Snowflake 안에서 배포
End-to-end ML with Notebooks	데이터 탐색 → 모델 학습 → 배포까지 노트북 환경에서 완결

Snowflake 차별점

데이터를 꺼내지 않고 Snowflake 안에서 ML 실행 → 보안·거버넌스 유지

Cortex로 SQL 한 줄로 LLM 기능 사용 가능

SELECT SNOWFLAKE.CORTEX.SUMMARIZE(review_text) FROM customer_reviews;

Snowpark으로 Python 개발자가 Snowflake를 네이티브 ML 플랫폼으로 활용

6. Data Applications — 서비스로의 확장

왜 핵심 영역인가?

Snowflake를 단순 분석 도구가 아닌 애플리케이션 개발 플랫폼으로 확장합니다. 데이터와 앱 로직을 하나의 플랫폼에서 관리할 수 있습니다.

핵심 기능

기능	설명
Connectors & Drivers	JDBC, ODBC, Python, Node.js 등 다양한 언어·도구와 연결
User Defined Functions (UDF)	SQL 안에서 사용자가 직접 만든 함수를 실행
External UDFs	AWS Lambda 등 외부 서비스를 Snowflake SQL에서 직접 호출
Stored Procedures	복잡한 비즈니스 로직을 DB 내부에 저장하여 재사용

Snowflake 차별점

JavaScript, Python, Java 등 다양한 언어로 UDF·프로시저 작성 가능
External UDF로 외부 API·서비스를 SQL과 통합
Snowflake Marketplace와 결합하면 데이터 상품을 외부에 앱 형태로 제공 가능

마무리 — 6대 영역 한눈에 보기

영역	한 줄 요약
Data Warehouse	분석의 기반 — 정형 데이터를 빠르고 유연하게
Data Engineering	데이터를 흐르게 — 수집·변환·적재 파이프라인 내재화
Relational Database	트랜잭션까지 — OLTP + OLAP 단일 플랫폼 처리
Data Lake	모든 형태 수용 — 반정형 데이터와 오픈 Lakehouse
AI / Data Science	인사이트 추출 — 데이터 이동 없는 ML 전 사이클
Data Applications	서비스로 확장 — 데이터 위에 앱을 구축

Snowflake의 강점은 각 영역이 별도 툴 없이 하나의 플랫폼 안에서 유기적으로 연결된다는 점입니다. 데이터를 수집하고, 변환하고, 저장하고, 분석하고, AI 모델로 만들고, 애플리케이션으로 배포하는 전 과정이 단일 거버넌스 아래 작동합니다.

차지예

다음 포스트

[Snowflake] Snowflake 데이터 플랫폼 구조

Snowflake

목차

1. Data Warehouse — 분석의 기반

왜 핵심 영역인가?

핵심 기능

Snowflake 차별점

2. Data Engineering — 데이터를 흐르게

왜 핵심 영역인가?

핵심 기능

Snowflake 차별점

3. Relational Database — 트랜잭션까지

왜 핵심 영역인가?

핵심 기능

Snowflake 차별점

4. Data Lake — 모든 형태의 데이터

왜 핵심 영역인가?

핵심 기능

Snowflake 차별점

5. AI / Data Science — 데이터 위의 AI

왜 핵심 영역인가?

핵심 기능

Snowflake 차별점

6. Data Applications — 서비스로의 확장

왜 핵심 영역인가?

핵심 기능

Snowflake 차별점

마무리 — 6대 영역 한눈에 보기

[Snowflake] Multi-cluster Shared Data Architecture

0개의 댓글