GPT의 진화: 단순한 언어 모델에서 범용 AI로

Bean·2025년 7월 7일

인공지능

목록 보기

78/138

GPT-2부터 GPT-4까지 이어지는 GPT 계열 모델의 발전은 단순히 "모델이 커졌다"는 이야기로 설명되지 않습니다.
그보다 더 중요한 건, 모델이 점점 '작업(task)'을 이해하고 수행하는 방식 자체가 바뀌었다는 것입니다.

이 글에서는 GPT 관점에서 각 세대의 특징을 정리하고, GPT가 task를 어떻게 인식하고 처리하는지, 왜 별도 지시 없이도 작업을 해낼 수 있는지 설명합니다.

모델	주요 학습 방식	Task 설명	학습 목표	대표 특징
GPT-2	Pretraining only	❌ 없음	단어 예측(next token)	순수 언어 모델, task 분리 안 됨
GPT-3	Pretraining + Few-shot Prompt	⭕ 예시 기반	범용 작업 추론	예시만으로 작업 유추 가능 (in-context learning)
ChatGPT	GPT-3.5 + Instruction + RLHF	⭕ 명시적 지시	사람 지시 따르기	실제 사용자 요청을 처리하도록 훈련됨
GPT-4	GPT-4 base + 지시 + RLHF	⭕ 고급 지시	범용 AI 추론	멀티태스크, 멀티모달, 고차 추론 가능

단점: 번역이나 요약 같은 구체적인 작업을 수행할 능력이 없음

Translate English to French: Hello → Bonjour  
Translate English to French: Thank you → Merci  
Translate English to French: How are you →

GPT-3는 task 설명 없이도 예시만 보고 작업을 파악할 수 있는 능력이 생김
→ 이걸 "in-context learning"이라고 부릅니다.

"지시문 기반 튜닝 (Instruction Tuning)"은 말 그대로, "지시문(instruction)이 포함된 데이터로 파인튜닝(fine-tuning)하는 과정"을 의미합니다.

장점: 사람 말을 따라 대답하는 대화형 언어 모델로 실용적
단점: 여전히 환각(hallucination) 문제는 존재

구조는 비공개지만 다음이 포함된 것으로 알려짐:
- 더 크고 정교한 사전학습
- 강화된 Instruction tuning + RLHF
- 멀티모달(텍스트 + 이미지), 고차 추론 가능
특징: Zero-shot 작업 수행 능력이 크게 향상됨

요약: GPT-4는 “말하지 않아도 알아서 일하는 AI”에 가장 가까운 단계

GPT는 다음과 같은 자연스러운 텍스트들을 수없이 학습합니다:

Q: What is the capital of France?  
A: Paris

Translate English to German: Thank you → Danke

The movie was awful → negative

이 데이터는 명시적으로 "이건 QA다", "이건 감정 분류다"라고 라벨이 붙은 게 아닙니다.
GPT는 단지 이런 문장 구조가 반복되면 뒤에 어떤 답이 나오는지를 암기한 것입니다.

The food was awful. → negative  
The service was great. → positive  
It was boring. →

이런 예시만 줘도 GPT는 “이건 감정 분류구나”를 유추합니다.
즉, task 라벨 없이도 예시의 형식만 보고도 작업을 수행할 수 있는 것이죠.

GPT는 처음부터 "이건 번역이다", "이건 요약이다"를 배우지 않았습니다.
단지 다음 토큰을 예측하려고 했을 뿐인데,
그 예측을 잘하려다 보니, 자연스럽게 작업 구조를 내재화한 것입니다.

모델	핵심 능력	학습 방식 요약
GPT-2	단어 예측만	task 구분 없음
GPT-3	예시 보고 task 추론	large-scale 사전학습 + in-context learning
ChatGPT	사람 지시를 이해하고 따름	instruction tuning + RLHF
GPT-4	말 안 해도 눈치로 작업 수행	고도화된 pretraining + 지시 학습 + 고차 추론/멀티모달 처리