한줄 요약: 인간 피드백 강화학습(RLHF)으로 GPT-3를 정렬하여, 1.3B InstructGPT가 175B GPT-3보다 사람이 선호하는 응답을 생성하며, "유용하고 무해한 AI"의 실용적 경로를 제시했다.
| 항목 | 내용 |
|---|---|
| 저자 | Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, et al. |
| 소속 | OpenAI |
| 발표 | NeurIPS 2022 |
| 링크 | arxiv.org/abs/2203.02155 |
| 키워드 | RLHF, Instruction Following, Alignment, Human Feedback |
GPT-3 (175B)의 문제:
"프랑스의 수도를 알려줘"
→ "프랑스의 수도는 파리입니다" (가끔)
→ "독일의 수도는 베를린, 영국의 수도는..." (이어쓰기)
→ 유해한 콘텐츠 생성 (필터 없음)
→ 지시를 무시하고 학습 데이터 패턴대로 생성
근본 원인:
GPT-3의 학습 목적 = "다음 토큰 예측" ≠ "사용자 의도에 따른 응답"
→ 인터넷 텍스트의 통계적 패턴을 학습했을 뿐,
"지시를 따르라"고 학습한 적 없음
핵심: LLM의 목적함수를 "다음 토큰 예측"에서 "인간 선호에 맞는 응답"으로 전환
Step 1: SFT (Supervised Fine-Tuning)
인간 라벨러가 작성한 고품질 응답으로 GPT-3 파인튜닝
데이터: ~13K (프롬프트, 이상적 응답) 쌍
→ 기본적인 instruction following 능력 부여
Step 2: Reward Model (RM) 학습
같은 프롬프트에 대해 여러 응답 생성
인간 라벨러가 응답 쌍을 비교: "A가 B보다 나음"
이 선호 데이터(~33K 비교)로 보상 모델 학습
→ 보상 모델 = "인간이 어떤 응답을 선호하는지" 예측
Step 3: PPO (Proximal Policy Optimization)
보상 모델의 점수를 보상 신호로 사용
PPO 강화학습으로 SFT 모델을 최적화
KL 페널티: 원래 GPT-3에서 너무 멀어지지 않게 제약
→ "인간이 좋아하는 응답"을 생성하도록 학습
3가지 기준:
1. Helpful (유용성): 사용자의 의도를 정확히 파악하고 응답
2. Honest (정직성): 모르면 모른다고 하고, 사실만 전달
3. Harmless (무해성): 유해·편향·차별적 콘텐츠 생성 방지
우선순위: Harmless > Honest > Helpful
→ 유용하더라도 유해한 응답은 안 됨
InstructGPT 1.3B vs GPT-3 175B:
인간 평가자가 InstructGPT를 선호하는 비율: 85%
→ 100배 작은 모델이 인간 선호에서 압도적 승리
"1.3B InstructGPT가 175B GPT-3보다 낫다"
→ 모델 크기보다 정렬(alignment)이 더 중요함을 시사
| 모델 | 진실성 (%) | 정보성 (%) |
|---|---|---|
| GPT-3 175B | 22% | 80% |
| InstructGPT 175B | 41% | 86% |
→ 진실성 거의 2배 향상 — "모르는 것을 모른다고 말하는" 능력
RealToxicityPrompts (유해 콘텐츠 유도 프롬프트):
GPT-3: 유해 응답 생성률 25%
InstructGPT: 유해 응답 생성률 6%
→ 75% 감소
"존중하는 방식으로 응답" 지시 추가 시:
InstructGPT: 유해 응답 생성률 0.1%
학술 NLP 벤치마크(SQuAD, HellaSwag 등)에서:
InstructGPT: GPT-3 대비 약간의 성능 하락 (~1-2%)
→ "Alignment Tax" — 정렬이 일반 능력을 약간 희생
해결: PPO 학습 시 원래 LM 목적함수를 일부 혼합
→ Alignment Tax를 최소화
InstructGPT는 AI 역사의 변곡점이다. GPT-3까지 LLM은 "강력하지만 제어 불가능한 도구"였다. InstructGPT/RLHF 이후 LLM은 "지시를 따르는 어시스턴트"가 되었다. ChatGPT의 폭발적 성공은 이 전환의 직접적 결과다.
가장 깊은 통찰: "모델 크기 < 정렬(alignment)". 1.3B 모델이 175B를 이긴 것은, LLM의 가치가 "얼마나 많이 아는가"가 아니라 "얼마나 잘 도와주는가"에 있음을 보여준다. 이후 전 세계 LLM 개발이 "더 크게" 대신 "더 정렬되게"로 방향을 전환했다.
DPO가 RLHF의 PPO를 대체하면서 기술적으로는 InstructGPT의 방법이 구식이 되었지만, "인간 선호에 맞추어 LLM을 조정한다"는 패러다임 자체는 여전히 유효하며 모든 현대 LLM의 기반이다.
관련 논문: DPO, Constitutional AI, RLHF (Christiano et al.), PPO, ChatGPT