[Snowflake] Cortex

차지예·2026년 6월 3일

snowflake 데이터 엔지니어

Snowflake

목록 보기

16/49

1. Snowflake Cortex란?

Snowflake Cortex는 Snowflake가 제공하는 완전 관리형 AI/ML 서비스 플랫폼이다.
별도 인프라 구축 없이 Snowflake 안에서 LLM을 활용한 애플리케이션을 구축할 수 있다.

핵심 메시지: "Snowflake 데이터를 벗어나지 않고, AI 기능을 바로 사용한다"

2. Cortex 3가지 기능 — 한눈에 비교

	Cortex Analyst	Cortex Search	Cortex Fine-tuning
한 줄 정의	자연어 → SQL 변환	텍스트 퍼지 검색	LLM 도메인 특화 조정
대상 데이터	구조화 데이터 (테이블)	비정형 텍스트	학습 데이터 (prompt/completion)
핵심 키워드	Text-to-SQL, Semantic View	Hybrid Search, RAG	PEFT, Adaptor
주요 사용 사례	비기술 사용자의 데이터 질의	문서 검색, 챗봇 지식 기반	도메인 특화 모델 성능 향상
언제 쓰는가	SQL 없이 데이터 분석이 필요할 때	텍스트를 의미 기반으로 검색할 때	특정 업무에 맞게 LLM을 조정할 때

3. Cortex Analyst

한 줄 정의

완전 관리형 LLM 기반 기능. SQL 없이 자연어로 구조화 데이터에 질문하고 답변을 받는다.

왜 쓰는가? ( ★★★)

비기술 사용자(비개발자)가 데이터를 직접 조회하게 하고 싶을 때
자연어 질문 → SQL 자동 생성 → 결과 반환 흐름이 필요할 때
Streamlit, Slack, Teams 등 기존 도구에 분석 기능을 붙이고 싶을 때

핵심 개념: Semantic View (시맨틱 뷰)

Cortex Analyst가 정확한 SQL을 생성하기 위한 비즈니스 의미 레이어다.
"데이터베이스 스키마 + 비즈니스 언어"를 연결해주는 역할.

구성 요소 5가지:

Logical tables — 비즈니스 엔티티 (고객, 주문 등)
Dimensions — 범주형 맥락 (날짜, 카테고리 등)
Facts — 정량 측정값 (금액, 수량 등)
Metrics — 집계 KPI (총 매출 등)
Relationships — 테이블 간 조인 관계

보안 특징 ( ★★)

고객 데이터로 모델을 훈련하거나 파인튜닝하지 않는다
데이터·메타데이터가 Snowflake 거버넌스 경계 밖으로 나가지 않는다
RBAC 정책과 완전 통합 → 생성된 SQL도 기존 접근 제어 준수

COF-C03에서 알 필요 없는 것

모델 우선순위 목록 (Claude → GPT 순서 등)
REST API 요청/응답 구조 세부 사항
멀티턴 대화 메시지 필드명 (messages, role 등)
비용 모니터링 뷰 이름

4. Cortex Search

한 줄 정의

낮은 지연시간의 하이브리드(벡터 + 키워드) 검색 서비스.
임베딩·인프라 걱정 없이 텍스트 검색 엔진을 수 분 만에 구축한다.

왜 쓰는가? ( ★★★)

두 가지 사용 사례만 기억:

사용 사례	설명
RAG 엔진	LLM 챗봇에 최신 데이터 컨텍스트를 제공
엔터프라이즈 검색	앱 내 고품질 검색창 백엔드

검색 품질 메커니즘 ( ★★)

Cortex Search는 3단계 하이브리드 방식을 사용한다:
1. Vector Search — 의미(semantic)가 유사한 문서 검색
2. Keyword Search — 단어가 유사한 문서 검색
3. Semantic Reranking — 두 결과를 합쳐 최적 순서로 재정렬

→ 시험에서 "Cortex Search가 정확도가 높은 이유"를 묻는다면: 하이브리드 + 리랭킹

5. Cortex Fine-tuning

한 줄 정의

PEFT(Parameter-Efficient Fine-Tuning) 기반 완전 관리형 서비스.
기존 LLM을 도메인 특화 작업에 맞게 예시 데이터로 조정한다.

왜 쓰는가? (★★★)

이 3가지 상황을 비교해서 "언제 Fine-tuning이 정답인가"를 알아야 한다:

방법	언제 적합
프롬프트 엔지니어링	간단한 작업, 빠른 적용
RAG	최신 데이터·문서 기반 검색이 필요할 때
Fine-tuning	도메인 특화 작업에서 더 나은 정확도·낮은 지연시간이 필요할 때

→ "처음부터 모델을 훈련하지 않아도 된다"는 점이 Fine-tuning의 핵심 장점

학습 데이터 형식 (★★)

데이터 출처: Snowflake 테이블 또는 뷰
필수 컬럼: prompt (입력) + completion (기대 출력)

파인튜닝 가능한 Base 모델 계열

Meta Llama 계열: llama3-8b, llama3-70b, llama3.1-8b, llama3.1-70b
Mistral 계열: mistral-7b, mixtral-8x7b

6. 시험 핵심 요약

각 기능의 "언제 쓰는가" — 이것만 확실히 구분하면 된다

비즈니스 사용자가 SQL 없이 데이터를 조회하고 싶다
  → Cortex Analyst

문서·텍스트를 의미 기반으로 검색하거나 RAG 챗봇을 만들고 싶다
  → Cortex Search

특정 도메인 작업에서 LLM 성능을 높이고 싶다
  → Cortex Fine-tuning

3가지 공통 특징 — 모두 해당

Snowflake 완전 관리형(Fully-managed) 서비스
별도 인프라/GPU 없이 Snowflake 내부에서 실행
고객 데이터가 Snowflake 거버넌스 경계 밖으로 나가지 않음
RBAC 접근 제어와 통합

자주 나오는 함정 유형

함정	정답
Cortex Analyst가 SQL을 직접 실행한다?	❌ SQL을 생성하고, 실행은 웨어하우스가 한다
Cortex Search는 키워드 검색만 한다?	❌ 벡터 + 키워드 + 리랭킹 하이브리드
Fine-tuning은 모델을 처음부터 훈련한다?	❌ 기존 모델에 어댑터를 추가하는 PEFT 방식
Cortex 기능 사용 시 데이터가 외부로 전송된다?	❌ Snowflake 거버넌스 경계 내에서만 처리

차지예

이전 포스트

[Snowflake] Copilot & Cortex AI Functions

다음 포스트

[Snowflake] Cortex

Snowflake

1. Snowflake Cortex란?

2. Cortex 3가지 기능 — 한눈에 비교

3. Cortex Analyst

한 줄 정의

왜 쓰는가? ( ★★★)

핵심 개념: Semantic View (시맨틱 뷰)

보안 특징 ( ★★)

COF-C03에서 알 필요 없는 것

4. Cortex Search

한 줄 정의

왜 쓰는가? ( ★★★)

검색 품질 메커니즘 ( ★★)

5. Cortex Fine-tuning

한 줄 정의

왜 쓰는가? (★★★)

학습 데이터 형식 (★★)

파인튜닝 가능한 Base 모델 계열

6. 시험 핵심 요약

각 기능의 "언제 쓰는가" — 이것만 확실히 구분하면 된다

3가지 공통 특징 — 모두 해당

자주 나오는 함정 유형

[Snowflake] Copilot & Cortex AI Functions

[Snowflake] Access Control Overview

0개의 댓글