GPT의 진화: 단순한 언어 모델에서 범용 AI로

Bean·2025년 7월 7일
0

인공지능

목록 보기
78/123

개요

GPT-2부터 GPT-4까지 이어지는 GPT 계열 모델의 발전은 단순히 "모델이 커졌다"는 이야기로 설명되지 않습니다.
그보다 더 중요한 건, 모델이 점점 '작업(task)'을 이해하고 수행하는 방식 자체가 바뀌었다는 것입니다.

이 글에서는 GPT 관점에서 각 세대의 특징을 정리하고, GPT가 task를 어떻게 인식하고 처리하는지, 왜 별도 지시 없이도 작업을 해낼 수 있는지 설명합니다.


GPT 계열 핵심 비교

모델주요 학습 방식Task 설명학습 목표대표 특징
GPT-2Pretraining only❌ 없음단어 예측(next token)순수 언어 모델, task 분리 안 됨
GPT-3Pretraining + Few-shot Prompt⭕ 예시 기반범용 작업 추론예시만으로 작업 유추 가능 (in-context learning)
ChatGPTGPT-3.5 + Instruction + RLHF⭕ 명시적 지시사람 지시 따르기실제 사용자 요청을 처리하도록 훈련됨
GPT-4GPT-4 base + 지시 + RLHF⭕ 고급 지시범용 AI 추론멀티태스크, 멀티모달, 고차 추론 가능

GPT의 학습 방식, 무엇이 달라졌을까?

1. GPT-2: 단어 예측만 잘하는 모델

  • 학습: 웹 텍스트 기반의 순수 언어 모델링 (unsupervised)
  • 방식: 단순히 다음 단어를 예측
  • 작업 설명 없음, 문맥에서 task 추론 불가능

단점: 번역이나 요약 같은 구체적인 작업을 수행할 능력이 없음


2. GPT-3: 예시만으로 작업을 추론한다

  • 학습: GPT-2처럼 사전학습만 진행되지만, 더 많은 데이터와 파라미터
  • 특징: 예시(few-shot prompt)를 보면 유사한 출력을 만들어냄
Translate English to French: Hello → Bonjour  
Translate English to French: Thank you → Merci  
Translate English to French: How are you → 

GPT-3는 task 설명 없이도 예시만 보고 작업을 파악할 수 있는 능력이 생김
이걸 "in-context learning"이라고 부릅니다.


3. ChatGPT: 지시를 이해하는 모델

  • 구조: GPT-3.5 기반 + Instruction tuning + RLHF

  • 학습 단계:

    1. 기존 GPT-3 방식의 사전학습
    2. 지시문 기반 튜닝 (Instruction tuning)
      예: "Summarize this paragraph.", "Translate to Korean."
    3. RLHF (Reinforcement Learning from Human Feedback)
      → 사람이 “좋은 답변”과 “나쁜 답변”을 평가하여 모델을 개선

"지시문 기반 튜닝 (Instruction Tuning)"은 말 그대로, "지시문(instruction)이 포함된 데이터로 파인튜닝(fine-tuning)하는 과정"을 의미합니다.

장점: 사람 말을 따라 대답하는 대화형 언어 모델로 실용적
단점: 여전히 환각(hallucination) 문제는 존재


4. GPT-4: 지시 없이도 알아서 해낸다

  • 구조는 비공개지만 다음이 포함된 것으로 알려짐:

    • 더 크고 정교한 사전학습
    • 강화된 Instruction tuning + RLHF
    • 멀티모달(텍스트 + 이미지), 고차 추론 가능
  • 특징: Zero-shot 작업 수행 능력이 크게 향상됨

요약: GPT-4는 “말하지 않아도 알아서 일하는 AI”에 가장 가까운 단계


GPT는 task를 어떻게 ‘지시 없이’ 수행할까?

1. 사전학습에서 패턴을 학습함

GPT는 다음과 같은 자연스러운 텍스트들을 수없이 학습합니다:

Q: What is the capital of France?  
A: Paris

Translate English to German: Thank you → Danke

The movie was awful → negative

이 데이터는 명시적으로 "이건 QA다", "이건 감정 분류다"라고 라벨이 붙은 게 아닙니다.
GPT는 단지 이런 문장 구조가 반복되면 뒤에 어떤 답이 나오는지를 암기한 것입니다.


2. 예시 기반 추론 능력 (Few-shot prompting)

The food was awful. → negative  
The service was great. → positive  
It was boring. →

이런 예시만 줘도 GPT는 “이건 감정 분류구나”를 유추합니다.
즉, task 라벨 없이도 예시의 형식만 보고도 작업을 수행할 수 있는 것이죠.


3. 그래서 GPT의 task 이해는 "부산물"

GPT는 처음부터 "이건 번역이다", "이건 요약이다"를 배우지 않았습니다.
단지 다음 토큰을 예측하려고 했을 뿐인데,
그 예측을 잘하려다 보니, 자연스럽게 작업 구조를 내재화한 것입니다.


GPT의 진화는 이렇게 요약됩니다

모델핵심 능력학습 방식 요약
GPT-2단어 예측만task 구분 없음
GPT-3예시 보고 task 추론large-scale 사전학습 + in-context learning
ChatGPT사람 지시를 이해하고 따름instruction tuning + RLHF
GPT-4말 안 해도 눈치로 작업 수행고도화된 pretraining + 지시 학습 + 고차 추론/멀티모달 처리

비유로 쉽게 이해하기

모델사람에 비유하면…
GPT-2책만 많이 읽은 사람, 말은 잘하지만 뭘 시켜야 할지 모름
GPT-3예시 몇 개 보면 따라하는 사람
ChatGPT“요약해줘” 하면 실제로 요약하는 훈련 받은 사람
GPT-4말 안 해도 분위기 보고 원하는 걸 알아서 해주는 사람

profile
AI developer

0개의 댓글