ChatGPT나 GPT-4는 단순히 문장을 생성하는 것을 넘어서, 사람의 의도를 파악하고 그에 맞게 대답합니다.
그렇다면 질문은 하나입니다:
“기계가 어떻게 사람의 ‘의도’를 이해하게 되었을까?”
그 핵심 기술이 바로 RLHF(Reinforcement Learning from Human Feedback)입니다.
이 글에서는 RLHF의 개념, 훈련 과정, 그리고 왜 중요한지까지 GPT 중심 시각에서 쉽고 자세하게 풀어봅니다.
Reinforcement Learning from Human Feedback
→ 사람의 피드백을 바탕으로 모델을 강화학습시키는 기법
즉, 사람의 선호(preference)를 반영하여 모델이
❌ “말은 맞지만 별로인 답”이 아니라
✅ “사람이 좋아하는 답변”을 내놓도록 학습시키는 방법입니다.
RLHF는 보통 세 단계로 구성됩니다:
“좋은 예시로 기초를 다지는 과정”
Prompt: "Summarize the article."
Response: "The article explains that..."
목적: "지시가 들어오면 이렇게 대답해야 한다"는 기본적인 반응 습득
“무엇이 더 좋은 답인지 평가할 줄 아는 모델 만들기”
Prompt: "What is the capital of France?"
1️⃣ "The capital of France is Paris."
2️⃣ "France is a country in Europe."
3️⃣ "I think it's Paris, but I'm not sure."
“사람이 좋아하는 방향으로 모델을 조정하는 단계”
기존 GPT 모델이 여러 응답 생성
Reward 모델이 각 응답에 점수를 부여
높은 점수 받는 방향으로 GPT를 다시 학습시킴
목적: “이런 식으로 대답해야 높은 평가 받는다”는 감각을 모델에 주입
GPT-3까지는 문장은 잘 만들었지만,
RLHF는 이러한 문제를 해결하기 위한 필수 기술로 등장했으며,
ChatGPT, GPT-4의 신뢰도와 유용성을 크게 향상시킨 주역입니다.
단계 | 설명 | 목적 |
---|---|---|
1. SFT | 지시문과 모범답변으로 파인튜닝 | 기본적인 지시 수행 능력 학습 |
2. Reward 모델 | 사람 피드백을 바탕으로 보상 모델 훈련 | 무엇이 더 좋은 답변인지 평가 가능하게 함 |
3. PPO | 보상 점수에 따라 GPT를 다시 학습 | 인간 선호에 맞는 응답을 생성하도록 강화함 |
단계 | 비유 |
---|---|
SFT | 선생님이 정답 예시를 보여주며 "이렇게 말해보자" 가르침 |
RM | 학생들 대답을 보고 선생님이 "이게 제일 좋다" 순위 매김 |
PPO | 선생님의 평가 기준에 따라 학생이 다시 공부하며 말투와 내용 수정 |
모델 | RLHF 사용 여부 | 특징 |
---|---|---|
GPT-2 | ❌ | 지시 이해 불가, 텍스트만 잘 생성 |
GPT-3 | ❌ | 예시 기반 작업 추론 가능, 지시는 명확히 이해 못함 |
ChatGPT(GPT-3.5) | ✅ | 지시문 이해, 대화 중심 응답 가능 |
GPT-4 | ✅ 강화됨 | 고급 reasoning, 지시 없이도 자연스럽게 대응 가능 |
- RLHF는 사람의 피드백을 바탕으로 GPT를 지시 기반 AI로 진화시킨 핵심 기술입니다.
- 이 과정 덕분에 GPT는 단지 말을 잘하는 수준을 넘어서, 사람이 원하는 방식으로 말하는 능력을 갖추게 되었습니다.
- ChatGPT, GPT-4 같은 모델의 "사람다움"은 대부분 이 기술에서 비롯된 성과입니다.