Zero-shot, One-shot, Few-shot이 뭐야? | 프롬프트 토큰까지 한 번에 이해하기

Bean·2025년 7월 2일
0

인공지능

목록 보기
74/123

Zero-shot vs Few-shot: GPT는 예제를 얼마나 참고할까?


1. Intro: 모델은 어떻게 학습 없이 문제를 풀까?

ChatGPT나 GPT-4 같은 거대한 언어 모델은 단순히 "문제를 던지기만 해도" 똑똑한 답변을 내놓습니다.
하지만 어떻게 훈련 데이터 없이도 그렇게 똑똑하게 반응할까요?

그 비밀은 Zero-shot, One-shot, Few-shot이라는 세 가지 방식에 있습니다.
이들은 모델이 얼마나 많은 예제를 "프롬프트 안에서" 참고하는지에 따라 구분돼요.


2. Zero-shot: “예제 없이” 바로 문제를 푼다

예제 0개. 문제만 던지고 모델이 스스로 답을 유추하는 방식입니다.

Q: What’s the capital of France?  
A:

→ 모델은 학습된 지식만으로 "Paris"라는 정답을 출력합니다.
즉, 패턴 학습이 아니라 사전 학습(pretraining)을 기반으로 즉시 추론하는 방식입니다.


3. One-shot: “예제 1개”만 보고 일반화한다

예제 1개. 문제-답변 한 쌍만 보여주고, 다음 문제를 푸는 방식이에요.

Q: What’s the capital of Spain?  
A: Madrid  

Q: What’s the capital of Germany?  
A:

→ 첫 예제 하나만 참고해서 "Germany → Berlin"이라는 답을 유추합니다.
이건 zero-shot보다는 더 많은 힌트를 주는 방식이죠.


4. Few-shot: “소수의 예제”로 패턴을 익힌다

예제 2개 이상 (보통 2~10개). 모델에게 간단한 패턴을 학습시킨 뒤 문제를 푸게 합니다.

Q: What’s the capital of Spain?  
A: Madrid  

Q: What’s the capital of Italy?  
A: Rome  

Q: What’s the capital of Germany?  
A:

→ 위의 예제를 기반으로 모델은 “Q: What’s the capital of ___?”라는 패턴을 인식하고,
문맥에 맞는 정답인 Berlin을 도출합니다.


5. 정리: 세 가지 방식 비교

방식예제 개수모델 특징
Zero-shot0개사전 지식에 기반한 즉시 추론
One-shot1개한 개의 예제로 패턴 유추
Few-shot2개 이상예제를 기반으로 간단한 학습 수행

6. 프롬프트 토큰이란?

6.1. 프롬프트는 텍스트 = 토큰 시퀀스

모델에게 입력하는 프롬프트는 결국 토큰(token) 단위로 분해되어 처리됩니다.
예를 들어 아래 문장은:

Q: What is 2 + 2?  
A:

"Q", ":", "What", "is", "2", "+", "2", "?", "A", ":"
이런 단위로 쪼개지며, 각 토큰은 고유한 숫자 ID와 함께 임베딩 벡터로 변환됩니다.


6.2. 예제가 많아질수록 토큰도 많아진다

  • zero-shot: 질문 하나 → 토큰 수가 짧음
  • few-shot: 예제 여러 개 + 질문 → 토큰 수가 길어짐

즉, 예제를 더 많이 보여주면 프롬프트 길이(=토큰 수)도 함께 증가합니다.


7. 토큰 수 vs 단어 수: 얼마나 길게 넣을 수 있을까?

7.1. 영어 기준

  • 평균적으로 1단어 ≈ 1.3~1.5 토큰
  • 예: 2048 tokens ÷ 1.5 ≈ 약 1365 단어

👉 2048토큰 ≈ 1300~1500 영어 단어


7.2. 한국어 기준

  • 평균적으로 1단어 ≈ 2~3 토큰
  • 예: 2048 tokens ÷ 2.5 ≈ 약 820 단어

👉 2048토큰 ≈ 700~900 한국어 단어

📌 한국어는 조사/어미/합성어 등 때문에 토큰 분해가 더 많이 발생하는 경향이 있습니다.


7.3. 주의: 실제 토큰 수는 내용에 따라 달라짐

  • 특수문자, 숫자, 이모지, 고유명사 등이 많으면 더 많은 토큰이 생성됩니다.
  • 코드, 수식, 표 같은 구조적 텍스트도 토큰 수가 빠르게 늘어납니다.

7.4. 최대 토큰 수 vs 예상 단어 수

모델 버전최대 토큰 수영어 기준 예상 단어 수 (1.3~1.5 기준)한국어 기준 예상 단어 수 (2~3 기준)
GPT-3약 2,0481,365 ~ 1,575 단어680 ~ 1,020 단어
GPT-3.5약 4,0962,730 ~ 3,150 단어1,365 ~ 2,045 단어
GPT-48,000 ~ 32,0005,460 ~ 24,600 단어2,665 ~ 16,000 단어

해석 팁

  • 단어 수는 문장 구조, 특수문자, 고유명사 포함 여부 등에 따라 실제로는 더 많이 또는 더 적게 나올 수 있어요.
  • 한국어는 조사나 어미 변화 등으로 인해 서브워드 단위 토큰이 더 많이 발생하는 경향이 있어요.
  • GPT-4의 32k 토큰은 논문, 책, 소설 같은 긴 문서를 한번에 다룰 수 있는 수준입니다.

8 마무리 요약

  • Zero-shot/One-shot/Few-shot은 모델이 프롬프트에서 참고하는 예제 수를 의미합니다.
  • 프롬프트의 입력은 토큰 단위로 처리되며, 예제 수가 늘수록 토큰 수가 늘어납니다.
  • 언어별 평균 토큰 수: 영어는 1.3~1.5, 한국어는 2~3.
  • GPT 모델에는 토큰 수 제한이 있으며, 이를 초과하면 일부 내용은 잘려나갈 수 있습니다.

profile
AI developer

0개의 댓글