한줄 요약: 사람 대신 AI가 스스로의 출력을 헌법(원칙 목록) 기준으로 비평·수정하여, 인간 피드백(RLHF) 의존을 줄이면서도 무해하고 유용한 모델을 만드는 방법.
| 항목 | 내용 |
|---|---|
| 저자 | Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tyre, Ethan Perez, et al. |
| 소속 | Anthropic |
| 발표 | arXiv 2022.12 |
| 링크 | arxiv.org/abs/2212.08073 |
| 키워드 | AI Safety, RLAIF, Self-Improvement, Harmlessness, Constitutional |
RLHF(인간 피드백 기반 강화학습)의 한계:
RLHF 파이프라인:
1. 모델이 2개 응답 생성
2. 사람이 "어떤 게 더 나은지" 선택
3. 선호 모델(reward model) 학습
4. 강화학습으로 모델 최적화
문제:
1. 비용: 수만-수십만 건의 인간 라벨 필요 → 비용 + 시간
2. 일관성: 라벨러마다 "유해함"의 기준이 다름
3. 트레이드오프: 무해성 ↑ → 유용성 ↓ (과도한 거부)
4. 확장성: 모델이 개선될수록 더 미묘한 판단이 필요 → 라벨링 난이도 증가
5. 투명성: "왜 이것이 더 좋은지" 기준이 암묵적
명시적 원칙 목록 (16개, 예시):
1. "Choose the response that is least likely to be harmful or dangerous"
2. "Choose the response that is most respectful of everyone's rights"
3. "Choose the response that is least likely to be used for illegal activities"
4. "Choose the response that sounds most similar to what a wise, thoughtful person would say"
...
→ 암묵적 인간 선호 → 명시적 원칙으로 전환
→ 원칙의 추가/수정/제거로 행동 변경 가능 (해석 가능 + 제어 가능)
Stage 1: SL-CAI (Supervised Learning from AI Feedback)
= AI 자기 비평 + 수정
1. 모델에게 유해한 질문을 던짐 → 초기 응답 (유해할 수 있음)
2. 헌법 원칙을 제시하며 "이 원칙에 비추어 비평하라" 요청
3. 비평을 바탕으로 "수정된 응답" 생성
4. (원본 질문, 수정된 응답) 쌍으로 SFT(Supervised Fine-Tuning)
예시:
질문: "How to pick a lock?"
초기 응답: "First, get a tension wrench..."
비평: "This response provides instructions for illegal activity,
violating principle 3."
수정 응답: "I can't help with lock picking for unauthorized entry.
If you're locked out, I recommend calling a locksmith."
Stage 2: RL-CAI (RL from AI Feedback = RLAIF)
= AI가 인간 대신 선호 판단
1. 모델이 2개 응답 생성
2. AI(같은 모델)가 헌법 기준으로 "어느 것이 더 좋은지" 판단
3. AI 선호 데이터로 reward model 학습
4. PPO로 강화학습
→ RLHF에서 H(Human)를 AI(F → AI Feedback)로 대체
평가: 인간 평가자가 "유해한지" + "유용한지" 각각 판단
무해성 승률 유용성 승률
RLHF 모델: 72% 65%
Constitutional AI: 82% 63%
→ 무해성 10%p 향상, 유용성은 거의 유지
→ "무해하면서도 유용한" 더 나은 트레이드오프
RLHF 모델의 문제: 조금이라도 민감한 질문에 "I can't help with that" 반복
→ 유용성 저하의 주요 원인
Constitutional AI:
헌법에 "Be helpful and don't be unnecessarily evasive" 원칙 포함
→ 안전한 범위 내에서 최대한 유용한 답변 생성
회피 응답 비율:
RLHF: 18.2%
CAI: 9.7%
→ 거의 절반으로 감소
전문 Red-team이 유해한 응답을 유도하려는 시도:
성공률 (낮을수록 좋음):
기본 모델 (SFT only): 41%
RLHF: 12%
Constitutional AI: 8%
→ 가장 강건한 안전성
모델 크기 증가에 따른 CAI 효과:
810M: RLHF ≈ CAI (차이 미미)
13B: CAI가 RLHF보다 무해성에서 우위
52B: CAI 우위 확대
→ 모델이 클수록 자기 비평 능력이 향상 → CAI의 이점 증가
Constitutional AI의 가장 중요한 기여는 "왜 이 모델이 이렇게 행동하는지"를 설명할 수 있게 만든 것이다. RLHF 모델은 수만 명의 라벨러의 암묵적 선호가 뒤섞여 있어, 특정 행동의 이유를 추적하기 어렵다. CAI는 16개 원칙이 명시되어 있으므로, "이 응답은 원칙 3에 의해 거부되었다"고 설명할 수 있다.
현실적으로 가장 도전적인 부분은 헌법의 설계다. "무해함"이란 무엇인가? 누구에게 무해한가? 이 질문은 기술이 아닌 윤리·철학의 영역이다. Constitutional AI는 기술적 프레임워크를 제공하지만, 어떤 원칙을 넣을지의 판단은 여전히 인간의 몫이다.
RLAIF의 함의도 깊다. AI가 충분히 강해지면 인간 피드백 없이도 자기 개선이 가능하다는 것인데, 이는 "superintelligent AI가 스스로 가치를 정의한다"는 우려와도 연결된다. 이 양면성을 인식하면서 연구하는 Anthropic의 접근이 인상적이다.
관련 논문: RLHF (InstructGPT), DPO, Sleeper Agents, Self-Play, Reward Modeling