[논문 리뷰] InstructGPT: Training Language Models to Follow Instructions with Human Feedback

smj·2026년 3월 31일

review

목록 보기
30/30

한줄 요약: 인간 피드백 강화학습(RLHF)으로 GPT-3를 정렬하여, 1.3B InstructGPT가 175B GPT-3보다 사람이 선호하는 응답을 생성하며, "유용하고 무해한 AI"의 실용적 경로를 제시했다.

항목내용
저자Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, et al.
소속OpenAI
발표NeurIPS 2022
링크arxiv.org/abs/2203.02155
키워드RLHF, Instruction Following, Alignment, Human Feedback

1. 문제 정의

GPT-3 (175B)의 문제:
  "프랑스의 수도를 알려줘"
  → "프랑스의 수도는 파리입니다" (가끔)
  → "독일의 수도는 베를린, 영국의 수도는..." (이어쓰기)
  → 유해한 콘텐츠 생성 (필터 없음)
  → 지시를 무시하고 학습 데이터 패턴대로 생성

근본 원인:
  GPT-3의 학습 목적 = "다음 토큰 예측" ≠ "사용자 의도에 따른 응답"
  → 인터넷 텍스트의 통계적 패턴을 학습했을 뿐,
     "지시를 따르라"고 학습한 적 없음

핵심: LLM의 목적함수를 "다음 토큰 예측"에서 "인간 선호에 맞는 응답"으로 전환

2. 제안 방법

3단계 RLHF 파이프라인

Step 1: SFT (Supervised Fine-Tuning)
  인간 라벨러가 작성한 고품질 응답으로 GPT-3 파인튜닝
  데이터: ~13K (프롬프트, 이상적 응답) 쌍
  → 기본적인 instruction following 능력 부여

Step 2: Reward Model (RM) 학습
  같은 프롬프트에 대해 여러 응답 생성
  인간 라벨러가 응답 쌍을 비교: "A가 B보다 나음"
  이 선호 데이터(~33K 비교)로 보상 모델 학습
  → 보상 모델 = "인간이 어떤 응답을 선호하는지" 예측

Step 3: PPO (Proximal Policy Optimization)
  보상 모델의 점수를 보상 신호로 사용
  PPO 강화학습으로 SFT 모델을 최적화
  KL 페널티: 원래 GPT-3에서 너무 멀어지지 않게 제약
  → "인간이 좋아하는 응답"을 생성하도록 학습

인간 라벨러 가이드라인

3가지 기준:
  1. Helpful (유용성): 사용자의 의도를 정확히 파악하고 응답
  2. Honest (정직성): 모르면 모른다고 하고, 사실만 전달
  3. Harmless (무해성): 유해·편향·차별적 콘텐츠 생성 방지

우선순위: Harmless > Honest > Helpful
  → 유용하더라도 유해한 응답은 안 됨

3. 실험 결과

3.1 인간 선호 평가

InstructGPT 1.3B vs GPT-3 175B:

  인간 평가자가 InstructGPT를 선호하는 비율: 85%
  → 100배 작은 모델이 인간 선호에서 압도적 승리

  "1.3B InstructGPT가 175B GPT-3보다 낫다"
  → 모델 크기보다 정렬(alignment)이 더 중요함을 시사

3.2 진실성 (TruthfulQA)

모델진실성 (%)정보성 (%)
GPT-3 175B22%80%
InstructGPT 175B41%86%

→ 진실성 거의 2배 향상 — "모르는 것을 모른다고 말하는" 능력

3.3 유해성 감소

RealToxicityPrompts (유해 콘텐츠 유도 프롬프트):
  GPT-3:       유해 응답 생성률 25%
  InstructGPT: 유해 응답 생성률 6%
  → 75% 감소

"존중하는 방식으로 응답" 지시 추가 시:
  InstructGPT: 유해 응답 생성률 0.1%

3.4 Alignment Tax (정렬 비용)

학술 NLP 벤치마크(SQuAD, HellaSwag 등)에서:
  InstructGPT: GPT-3 대비 약간의 성능 하락 (~1-2%)
  → "Alignment Tax" — 정렬이 일반 능력을 약간 희생

해결: PPO 학습 시 원래 LM 목적함수를 일부 혼합
  → Alignment Tax를 최소화

4. 한계점

  • 인간 라벨러 편향: 40명의 영어 화자 라벨러 → 문화적·언어적 편향 불가피
  • 보상 해킹: 모델이 RM의 점수를 높이되 실제 품질은 낮은 "해킹" 학습 가능
  • SFT 데이터의 비용: 고품질 시연 데이터 작성에 전문 인력 필요
  • PPO 학습 불안정: 강화학습 특유의 학습 불안정성, 하이퍼파라미터 민감도
  • 암묵적 가치: "좋은 응답"의 기준이 라벨러에 내재 → 명시적 원칙 부재 (Constitutional AI가 이를 해결)
  • 확장성: 라벨링 비용이 모델 개선에 비례하여 증가

5. 의의와 영향

  • ChatGPT의 직접적 전신: InstructGPT의 RLHF 파이프라인이 ChatGPT에 그대로 적용
  • "정렬이 스케일보다 중요하다": 1.3B 정렬 모델 > 175B 미정렬 모델 → 패러다임 전환
  • RLHF를 LLM 정렬의 표준 방법론으로 확립
  • 후속: DPO(RLHF 단순화), Constitutional AI(인간 대신 AI 피드백), RLAIF
  • "Helpful, Honest, Harmless (3H)"가 AI 정렬의 기본 프레임워크로 채택
  • AI 안전 연구를 이론에서 실전 적용으로 전환시킨 전환점

6. 💬 리뷰어 코멘트

InstructGPT는 AI 역사의 변곡점이다. GPT-3까지 LLM은 "강력하지만 제어 불가능한 도구"였다. InstructGPT/RLHF 이후 LLM은 "지시를 따르는 어시스턴트"가 되었다. ChatGPT의 폭발적 성공은 이 전환의 직접적 결과다.

가장 깊은 통찰: "모델 크기 < 정렬(alignment)". 1.3B 모델이 175B를 이긴 것은, LLM의 가치가 "얼마나 많이 아는가"가 아니라 "얼마나 잘 도와주는가"에 있음을 보여준다. 이후 전 세계 LLM 개발이 "더 크게" 대신 "더 정렬되게"로 방향을 전환했다.

DPO가 RLHF의 PPO를 대체하면서 기술적으로는 InstructGPT의 방법이 구식이 되었지만, "인간 선호에 맞추어 LLM을 조정한다"는 패러다임 자체는 여전히 유효하며 모든 현대 LLM의 기반이다.


관련 논문: DPO, Constitutional AI, RLHF (Christiano et al.), PPO, ChatGPT

0개의 댓글