ChatGPT나 GPT-4 같은 거대한 언어 모델은 단순히 "문제를 던지기만 해도" 똑똑한 답변을 내놓습니다.
하지만 어떻게 훈련 데이터 없이도 그렇게 똑똑하게 반응할까요?
그 비밀은 Zero-shot, One-shot, Few-shot이라는 세 가지 방식에 있습니다.
이들은 모델이 얼마나 많은 예제를 "프롬프트 안에서" 참고하는지에 따라 구분돼요.
예제 0개. 문제만 던지고 모델이 스스로 답을 유추하는 방식입니다.
Q: What’s the capital of France?
A:
→ 모델은 학습된 지식만으로 "Paris"라는 정답을 출력합니다.
즉, 패턴 학습이 아니라 사전 학습(pretraining)을 기반으로 즉시 추론하는 방식입니다.
예제 1개. 문제-답변 한 쌍만 보여주고, 다음 문제를 푸는 방식이에요.
Q: What’s the capital of Spain?
A: Madrid
Q: What’s the capital of Germany?
A:
→ 첫 예제 하나만 참고해서 "Germany → Berlin"이라는 답을 유추합니다.
이건 zero-shot보다는 더 많은 힌트를 주는 방식이죠.
예제 2개 이상 (보통 2~10개). 모델에게 간단한 패턴을 학습시킨 뒤 문제를 푸게 합니다.
Q: What’s the capital of Spain?
A: Madrid
Q: What’s the capital of Italy?
A: Rome
Q: What’s the capital of Germany?
A:
→ 위의 예제를 기반으로 모델은 “Q: What’s the capital of ___?”라는 패턴을 인식하고,
문맥에 맞는 정답인 Berlin을 도출합니다.
방식 | 예제 개수 | 모델 특징 |
---|---|---|
Zero-shot | 0개 | 사전 지식에 기반한 즉시 추론 |
One-shot | 1개 | 한 개의 예제로 패턴 유추 |
Few-shot | 2개 이상 | 예제를 기반으로 간단한 학습 수행 |
모델에게 입력하는 프롬프트는 결국 토큰(token) 단위로 분해되어 처리됩니다.
예를 들어 아래 문장은:
Q: What is 2 + 2?
A:
→ "Q"
, ":"
, "What"
, "is"
, "2"
, "+"
, "2"
, "?"
, "A"
, ":"
이런 단위로 쪼개지며, 각 토큰은 고유한 숫자 ID와 함께 임베딩 벡터로 변환됩니다.
즉, 예제를 더 많이 보여주면 프롬프트 길이(=토큰 수)도 함께 증가합니다.
2048 tokens ÷ 1.5 ≈ 약 1365 단어
👉 2048토큰 ≈ 1300~1500 영어 단어
2048 tokens ÷ 2.5 ≈ 약 820 단어
👉 2048토큰 ≈ 700~900 한국어 단어
📌 한국어는 조사/어미/합성어 등 때문에 토큰 분해가 더 많이 발생하는 경향이 있습니다.
모델 버전 | 최대 토큰 수 | 영어 기준 예상 단어 수 (1.3~1.5 기준) | 한국어 기준 예상 단어 수 (2~3 기준) |
---|---|---|---|
GPT-3 | 약 2,048 | 약 1,365 ~ 1,575 단어 | 약 680 ~ 1,020 단어 |
GPT-3.5 | 약 4,096 | 약 2,730 ~ 3,150 단어 | 약 1,365 ~ 2,045 단어 |
GPT-4 | 8,000 ~ 32,000 | 약 5,460 ~ 24,600 단어 | 약 2,665 ~ 16,000 단어 |
해석 팁
- 단어 수는 문장 구조, 특수문자, 고유명사 포함 여부 등에 따라 실제로는 더 많이 또는 더 적게 나올 수 있어요.
- 한국어는 조사나 어미 변화 등으로 인해 서브워드 단위 토큰이 더 많이 발생하는 경향이 있어요.
- GPT-4의 32k 토큰은 논문, 책, 소설 같은 긴 문서를 한번에 다룰 수 있는 수준입니다.