[논문 리뷰] Constitutional AI: Harmlessness from AI Feedback

smj·2026년 3월 31일

AISafety ConstitutionalAI RLAIF alignment 논문리뷰

review

목록 보기

20/30

한줄 요약: 사람 대신 AI가 스스로의 출력을 헌법(원칙 목록) 기준으로 비평·수정하여, 인간 피드백(RLHF) 의존을 줄이면서도 무해하고 유용한 모델을 만드는 방법.

항목	내용
저자	Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tyre, Ethan Perez, et al.
소속	Anthropic
발표	arXiv 2022.12
링크	arxiv.org/abs/2212.08073
키워드	AI Safety, RLAIF, Self-Improvement, Harmlessness, Constitutional

1. 문제 정의

RLHF(인간 피드백 기반 강화학습)의 한계:

RLHF 파이프라인:
  1. 모델이 2개 응답 생성
  2. 사람이 "어떤 게 더 나은지" 선택
  3. 선호 모델(reward model) 학습
  4. 강화학습으로 모델 최적화

문제:
  1. 비용: 수만-수십만 건의 인간 라벨 필요 → 비용 + 시간
  2. 일관성: 라벨러마다 "유해함"의 기준이 다름
  3. 트레이드오프: 무해성 ↑ → 유용성 ↓ (과도한 거부)
  4. 확장성: 모델이 개선될수록 더 미묘한 판단이 필요 → 라벨링 난이도 증가
  5. 투명성: "왜 이것이 더 좋은지" 기준이 암묵적

2. 제안 방법

헌법 (Constitution)

명시적 원칙 목록 (16개, 예시):

  1. "Choose the response that is least likely to be harmful or dangerous"
  2. "Choose the response that is most respectful of everyone's rights"
  3. "Choose the response that is least likely to be used for illegal activities"
  4. "Choose the response that sounds most similar to what a wise, thoughtful person would say"
  ...

→ 암묵적 인간 선호 → 명시적 원칙으로 전환
→ 원칙의 추가/수정/제거로 행동 변경 가능 (해석 가능 + 제어 가능)

2단계 프로세스

Stage 1: SL-CAI (Supervised Learning from AI Feedback)
  = AI 자기 비평 + 수정

  1. 모델에게 유해한 질문을 던짐 → 초기 응답 (유해할 수 있음)
  2. 헌법 원칙을 제시하며 "이 원칙에 비추어 비평하라" 요청
  3. 비평을 바탕으로 "수정된 응답" 생성
  4. (원본 질문, 수정된 응답) 쌍으로 SFT(Supervised Fine-Tuning)

  예시:
    질문: "How to pick a lock?"
    초기 응답: "First, get a tension wrench..."
    비평: "This response provides instructions for illegal activity,
           violating principle 3."
    수정 응답: "I can't help with lock picking for unauthorized entry.
               If you're locked out, I recommend calling a locksmith."

Stage 2: RL-CAI (RL from AI Feedback = RLAIF)
  = AI가 인간 대신 선호 판단

  1. 모델이 2개 응답 생성
  2. AI(같은 모델)가 헌법 기준으로 "어느 것이 더 좋은지" 판단
  3. AI 선호 데이터로 reward model 학습
  4. PPO로 강화학습

  → RLHF에서 H(Human)를 AI(F → AI Feedback)로 대체

3. 실험 결과

3.1 무해성 vs 유용성

평가: 인간 평가자가 "유해한지" + "유용한지" 각각 판단

                    무해성 승률    유용성 승률
RLHF 모델:           72%           65%
Constitutional AI:    82%           63%

→ 무해성 10%p 향상, 유용성은 거의 유지
→ "무해하면서도 유용한" 더 나은 트레이드오프

3.2 과도한 거부(evasiveness) 감소

RLHF 모델의 문제: 조금이라도 민감한 질문에 "I can't help with that" 반복
  → 유용성 저하의 주요 원인

Constitutional AI:
  헌법에 "Be helpful and don't be unnecessarily evasive" 원칙 포함
  → 안전한 범위 내에서 최대한 유용한 답변 생성

회피 응답 비율:
  RLHF: 18.2%
  CAI:  9.7%
  → 거의 절반으로 감소

3.3 Red-teaming 결과

전문 Red-team이 유해한 응답을 유도하려는 시도:

성공률 (낮을수록 좋음):
  기본 모델 (SFT only):  41%
  RLHF:                  12%
  Constitutional AI:      8%

→ 가장 강건한 안전성

3.4 스케일링

모델 크기 증가에 따른 CAI 효과:

  810M: RLHF ≈ CAI (차이 미미)
  13B:  CAI가 RLHF보다 무해성에서 우위
  52B:  CAI 우위 확대

→ 모델이 클수록 자기 비평 능력이 향상 → CAI의 이점 증가

4. 한계점

AI 자기 비평의 한계: AI가 자신의 문제를 발견하지 못하는 "맹점" 존재 — 인간이 발견하는 미묘한 유해성을 놓칠 수 있음
헌법 설계의 주관성: 어떤 원칙을 포함할지는 여전히 인간의 가치 판단 → 문화·사회적 편향 반영 가능
원칙 간 충돌: "유용하라"와 "무해하라"가 충돌하는 경우의 우선순위가 불명확
순환적 자기 개선의 한계: AI가 AI를 평가 → 현재 AI의 능력 수준이 개선의 상한
정량적 안전성 보장 불가: "충분히 안전한가"에 대한 형식적 보장이 없음
비영어 언어에서의 효과: 영어 중심 헌법 → 다른 언어/문화에서의 적용성 미검증

5. 의의와 영향

RLAIF(RL from AI Feedback) 개념의 확립 — 이후 Google, Meta 등이 채택
"헌법"이라는 명시적 가치 체계: 암묵적 인간 선호 대신 투명한 원칙 → 감사(audit) 가능
모델 안전성을 확장 가능하게(scalable) 만드는 첫 체계적 시도
Anthropic의 Claude 모델 학습의 핵심 방법론
Sleeper Agents, Representation Engineering 등 후속 안전성 연구의 기반
"AI가 AI를 개선한다"는 자기 개선(self-improvement) 패러다임의 초기 사례

6. 💬 리뷰어 코멘트

Constitutional AI의 가장 중요한 기여는 "왜 이 모델이 이렇게 행동하는지"를 설명할 수 있게 만든 것이다. RLHF 모델은 수만 명의 라벨러의 암묵적 선호가 뒤섞여 있어, 특정 행동의 이유를 추적하기 어렵다. CAI는 16개 원칙이 명시되어 있으므로, "이 응답은 원칙 3에 의해 거부되었다"고 설명할 수 있다.

현실적으로 가장 도전적인 부분은 헌법의 설계다. "무해함"이란 무엇인가? 누구에게 무해한가? 이 질문은 기술이 아닌 윤리·철학의 영역이다. Constitutional AI는 기술적 프레임워크를 제공하지만, 어떤 원칙을 넣을지의 판단은 여전히 인간의 몫이다.

RLAIF의 함의도 깊다. AI가 충분히 강해지면 인간 피드백 없이도 자기 개선이 가능하다는 것인데, 이는 "superintelligent AI가 스스로 가치를 정의한다"는 우려와도 연결된다. 이 양면성을 인식하면서 연구하는 Anthropic의 접근이 인상적이다.

관련 논문: RLHF (InstructGPT), DPO, Sleeper Agents, Self-Play, Reward Modeling

smj

이전 포스트

[논문 리뷰] vLLM: Efficient Memory Management for LLM Serving with PagedAttention

다음 포스트