Learning to Reason without External Rewards

lit·2025년 6월 1일

느낀점

  • 보상 학습 목표까지 지정하지 않아도 성능이 향상되는 게 놀라움
  • Self-certainty가 명료함<- 아이디어가 좋았음
  • 잘못된 경과에 확신이 높게 찍히면 안 좋은 쪽으로 꽂힐 가능성 높음(처음 보는 문제, 엄청 어려운 문제)
  • 너무 확신하는 쪽으로 꽂히면 창의성을 헤칠 가능성도 높아보임
  • 역시 잘 구워진 베이스 모델이 필요?

Abstract

Reinforcement Learning with Verifiable Rewards(RLVR)을 통한 강화 학습을 사용하여 복잡한 추론을 위해 언어 모델을 훈련하는 것은 효과적이지만 비용이 많이 들고 도메인에 특화된 감독에 의존한다는 한계가 있습니다.
외부 보상이나 레이블링된 데이터 없이도 LLM이 내부 신호로 학습할 수 있도록 하는 프레임워크인 Reinforcement Learning from
Internal Feedback(RLIF)
을 소개합니다.

모델 자체의 self-certainty를 유일한 보상 신호로 사용하는 RLIF 방법인 INTUITOR를 제안합니다.
INTUITOR는 GRPO의 외부 보상을 self-certainty 점수로 대체하여 완전한 비지도 학습을 가능하게 합니다.

실험 결과 INTUITOR는 수학 벤치마크에서 GRPO와 동등한 성능을 보였으며 골드 솔루션이나 테스트 케이스 없이도 코드 생성과 같은 도메인 외 작업에 대한 우수한 일반화 능력을 달성했습니다.
내재적인 모델 신호가 도메인 전반에 걸쳐 효과적인 학습을 이끌 수 있으며 확실한 보상을 얻기 어려운 자율 AI 시스템을 위한 RLVR의 확장 가능한 대안을 제시함을 보여줍니다.

왼쪽 그림에 외부 보상 없이 내부 피드백을 통해 학습함을 알 수 있음

오른쪽 그래프를 통해 GRPO와 비슷하거나 더 좋은 성능을 보여주는 테스트가 있음을 확인할 수 있음

Introduction

강화 학습은 언어 모델의 역량을 강화하는 데 필수적인 요소가 되었습니다.
초기 연구는 RLHF에 집중, 선호도 데이터를 통해 훈련된 보상 모델을 이용해 모델 출력을 인간의 가치에 맞춰 정렬했습니다.
RLVR이 발전하여 학습된 보상 모델을 자동으로 검증 가능한 신호로 대체했고 DeepSeek-R1과 같은 모델에서 추론 능력 향상을 입증했습니다.

RLHF와 RLVR 모두 광범위한 적용 가능성을 제약하는 근본적인 한계에 직면해 있습니다.
RLHF는 광범위한 인간 주석 작업을 요구하여 비용이 많이 들고 잠재적으로 편향될 수 있습니다.
RLVR은 학습된 보상 모델을 사용하지 않지만 도메인별 검증자와 골드 표준 솔루션을 필요로 합니다.
수학에서는 전문가의 해답 주석이 필요하고 코드 생성에서는 포괄적인 테스트 스위트와 실행 환경이 필요합니다.
RLVR을 신중하게 선별된 도메인으로 제한하고 개방된 시나리오에서의 배포를 복잡하게 만듭니다.
결과 지향적인 검증 가능한 보상은 다른 도메인으로의 전이 가능성을 제한합니다.
이러한 문제들은 다음과 같은 중요한 연구 질문으로 이어집니다.
LLM이 외부 검증자나 도메인별 정답 없이 자체 생성 신호에만 의존하여 추론 능력을 향상시킬 수 있을까?

본 논문에서RLIF을 소개합니다.
RLIF는 모델이 외부 보상이나 감독 없이 내재적 피드백을 최적화하여 성능을 향상시키는 방식입니다.
RLIF의 동기는 미래에 모델이 인간이 직접 평가하기 어려운 초인간적인 능력을 개발하여 내재적 메커니즘을 통한 자체 개선이 필요해지는 시나리오까지 확장됩니다.

RLIF 패러다임 하에서 우리는 모델 자신의 확신도를 내재적 보상으로 활용하는 새로운 강화 학습 접근 방식인 INTUITOR를 제안합니다.
이LLM이 어려운 문제에서 낮은 확신도를 보인다는 관찰에 기반합니다.
확신도를 최적화하면 추론 능력이 향상될 것입니다.
모델의 출력 분포와 균일 분포 간의 평균 KL 발산인 self-certainty를 확신도 측정 지표로 사용합니다.
이 지표는 고품질 응답과 결함 있는 응답을 구별하는 데 유용하다는 것이 입증되었습니다.
INTUITOR는 자체 생성된 신호를 통해 학습을 유도하여 외부 감독이나 수작업 보상의 필요성을 없앱니다.
INTUITOR의 구현은 간단하고 효율적이며 효과적입니다:
기존 RLVR 프레임워크인 GRPO의 검증 가능한 보상 신호를 자기 확신도 점수로 대체하고 동일한 정책 그라디언트 알고리즘을 사용합니다.

실험은 유망한 결과를 보여줍니다.
Qwen2.5-3B 기반 모델을 사용한 MATH 데이터셋에서 INTUITOR는 어떠한 정답에도 의존하지 않고 GRPO의 성능과 일치합니다.
INTUITOR는 최종 결과뿐만 아니라 생성 궤적에 보상을 주기 때문에 더 효과적으로 일반화됩니다.
Qwen2.5-3B 기반 모델을 MATH에서 훈련했을 때 LiveCodeBench 코드 생성 작업에서 GRPO가 개선되지 않은 반면 INTUITOR는 65%의 상대적 개선을 보였고 CRUXEval-O에서는 GRPO의 44%에 비해 76%의 향상을 보였습니다.

Qwen2.5-1.5B 기반 모델을 MATH 코퍼스로 INTUITOR와 함께 미세 조정했을 때 원래 반복적인 콘텐츠를 생성하고 LiveCodeBench에서 0%의 정확도를 기록했던 모델이 일관된 추론 체인과 잘 구조화된 코드를 생성하는 방법을 학습하여 조정 후 9.9%의 정확도에 도달했습니다.
INTUITOR의 강력한 일반화 능력을 보여줍니다.
INTUITOR는 명확한 프롬프트만 필요하고 검증 가능한 보상이 필요 없으므로 다양한 작업에 광범위하게 적용할 수 있고 사전 훈련된 LLM이 이전에 인식했던 것보다 더 풍부한 잠재 행동 사전 지식을 가지고 있다는 새로운 증거를 제공합니다.

기여는 다음과 같이 요약할 수 있습니다:

  • RLIF을 소개하고 탐구합니다. LLM이 외부 감독이나 레이블이 지정된 데이터에 의존하지 않고 내재적, 자체 생성 신호를 활용하여 추론 기술을 향상시킬 수 있도록 하는 새로운 강화 학습 패러다임입니다.

  • INTUITOR를 소개합니다. 모델 자신의 내적 확신도 측정치인 자기 확신도를 유일한 내재적 보상으로 활용합니다.

  • INTUITOR가 도메인 내 작업에서 감독형 RL 성능과 일치하면서 도메인 외 일반화에서 우수한 성능을 달성함을 입증합니다. 내재적 보상에 의해 유도되는 구조화된 추론 능력의 출현과 향상된 지시 따르기 능력을 발견했습니다.

Method

내재적 피드백 메커니즘을 통한 언어 모델 훈련 접근 방식을 제시합니다.
기존 RL 기반 미세 조정 패러다임과 한계를 검토하는 것으로 시작하여 RLIF 실험 동기를 부여합니다.
자체 확신도를 내재적 보상 신호로 활용하는 새로운 RLIF 방법인 INTUITOR를 소개하고 정책 최적화를 통한 구현을 자세히 설명합니다.

From External Supervision to Internal Feedback

LLM을 위한 현재 RL 미세 조정 접근 방식은 주로 RLHF에 의존하는 것과 RLVR을 사용하는 두 가지 범주로 나뉩니다.

RLHF에서 정책 πθ\pi_{\theta}는 인간 선호도에 맞춰 최적화되며 일반적으로 학습된 보상 모델 rϕr_{\phi}에 의해 캡슐화됩니다. 목표는 다음과 같습니다:

여기서 qq는 입력 쿼리, oo는 생성된 출력, πref\pi_{\text{ref}}는 초기 참조 정책, β\beta는 KL 발산을 제어하여 πref\pi_{\text{ref}}에서 과도하게 벗어나는 것을 방지하는 계수입니다.
PPO와 같은 온라인 RL 알고리즘은 πθ\pi_{\theta}에서 샘플을 생성하고, rϕr_{\phi}를 사용하여 평가하며 목표를 최대화하기 위해 πθ\pi_{\theta}를 업데이트합니다.
그러나 보상 모델 rϕr_{\phi}는 중요하지만 취약합니다.
그 이유는 "보상 해킹"으로 이어질 수 있으며 재훈련하는 데 리소스가 많이 들어 훈련 파이프라인을 복잡하게 만들기 때문입니다.

RLVR은 학습된 보상 모델을 자동으로 검증 가능한 신호로 대체합니다.
이는 특히 수학과 같은 도메인에서 추론 능력을 향상시키는 데 효과적인 것으로 입증되었습니다.

RLVR 목표는 다음과 같습니다:

여기서 v(q,o)v(q,o)는 검증 가능한 보상 함수입니다.
예를 들어, 수학 문제 해결에서 v(q,o)v(q,o)는 다음과 같을 수 있습니다:

RLVR은 종종 REINFORCE, PPO 또는 GRPO와 같은 알고리즘을 사용하여 구현됩니다.
단순함에도 불구하고 검증 가능한 보상은 여전히 황금 표준 답변이나 테스트 실행에 의존하며 이는 비용이 많이 들고 도메인에 따라 다릅니다.
RLVR은 모호성 또는 주관적인 추론을 포함하는 작업에 대해 수학 및 코드 이상으로 확장하는 데 어려움을 겪습니다.

Reinforcement Learning from Internal Feedback (RLIF)

RLHF의 비용이 많이 드는 사람의 주석 및 RLVR의 도메인별 감독의 한계를 극복하기 위해 RLIF을 제안합니다.
RLIF는 외부 평가에 의존하는 대신 모델 자체의 출력 또는 추론 과정에 대한 평가를 피드백으로 사용합니다.
이는 여러 가지 이점을 제공합니다:
감독 인프라에 대한 의존도를 줄이고, 작업에 구애받지 않는 보상 신호를 제공하며, 외부 검증을 사용할 수 없는 도메인에서 학습을 지원합니다.

RLIF 최적화 목표는 다음과 같습니다:

여기서 u(q,o)u(q,o)는 외부 검증이 아닌 모델의 내부 상태 또는 계산에서 파생된 내재적 신호를 나타냅니다.
핵심 과제는 출력 품질과 상관 관계가 있고 학습을 효과적으로 안내할 수 있는 내재적 신호를 식별하는 데 있습니다.

동시 연구는 RLIF 패러다임 내에서 관련 개념을 탐구합니다.
예를 들어, Entropy Minimized Policy Optimization (EMPO) 잠재 의미 공간에서 레이블이 없는 질문에 대한 LLM 예측 엔트로피를 최소화합니다.
SEED-GRPO는 생성된 시퀀스의 의미론적 엔트로피를 지상 진리 보상과 결합하여 정책 업데이트를 조절합니다.
Negative Entropy Reward를 사용한 강화 학습 (EM-RL)은 REINFORCE와 유사하지만 레이블이 없는 토큰 수준 엔트로피의 음수 합계에만 기반한 보상 신호를 사용합니다.
이러한 방법들은 RLIF 프레임워크에서 LLM 훈련을 위한 내재적 신호 활용에 대한 관심과 잠재력이 커지고 있음을 강조합니다.

INTUITOR: Policy Optimization with Self-Certainty

우리는 모델 자체의 확신도를 유일한 내재적 보상 신호 u(q,o)u(q,o)로 활용하는 새로운 RLIF 방법인 INTUITOR를 제안합니다.

내재적 보상으로 모델 확신도를 선택한 이유는 LLM이 익숙하지 않은 작업을 만나거나 충분한 지식이 부족할 때 종종 낮은 확신도를 보이는 경향이 있다는 관찰에 근거합니다.
반대로, 높은 확신도는 종종 정확성과 상관 관계가 있습니다.
증가된 자기 확신도에 보상함으로써 INTUITOR는 모델이 출력에 대해 더 확신하게 될 때까지 추론 경로를 반복적으로 "연습"하고 개선하도록 장려합니다.

Kang et al. 에서 제안한 자기 확신도 측정 지표를 채택했으며 이는 어휘 VV에 대한 균일 분포 UU와 모델의 다음 토큰 분포 간의 평균 KL 발산으로 정의됩니다:

여기서 o<io_{<i}는 이전에 생성된 토큰이고 p(jq,o<i)p(j|q,o_{<i})는 단계 ii에서 토큰 jj에 대한 모델의 예측 확률입니다. 자기 확신도 값이 높을수록 확신도가 높음을 나타냅니다.

자기 확신도는 모델의 예측이 두 번째 인자인 KL(Upπθ)KL(U \| p_{\pi_{\theta}})와 관련이 있으므로 mode-seeking 속성을 가집니다.
mode-covering인 엔트로피(균일 분포에서 역 KL 발산)와 대조됩니다.
자기 확신도는 일반적으로 혼란도 또는 엔트로피 기반 측정과 관련된 문제인 더 긴 생성에 대한 편향에 덜 취약하다고 보고됩니다.
이는 내재적 확신도의 잠재적으로 더 신뢰할 수 있는 지표가 됩니다.

Kang et al.은 자기 확신도가 여러 후보 중에서 고품질 답변을 선택하는 데 효과적이며 다른 확신도 측정 지표 중에서 유일하게 후보가 많을수록 유용성이 향상된다는 것을 입증했습니다.
따라서 자기 확신도를 최적화하는 것은 모델이 스스로 더 설득력 있다고 생각하는 응답을 생성하도록 장려합니다.
RL 프로세스는 모델이 더 자세한 추론 단계를 생성하도록 유도하여 최종 답변에 대한 모델의 확신도를 높이는 방식으로 이를 달성할 수 있습니다.
이 메커니즘은 단순히 가장 가능성 있는 출력의 확률을 높이는 것보다 더 미묘합니다.
확신도를 높이기 위해 생성 프로세스 자체를 수정하는 것을 포함합니다.

방정식 (3)의 목표를 최적화하기 위해 다양한 정책 경사 알고리즘을 사용할 수 있습니다.
DeepSeek-R1과 같은 모델의 최근 성공과 오픈 소스 프로젝트에서 GRPO의 광범위한 채택을 참고하여 자기 확신도를 최적화하기 위해 GRPO를 활용합니다.
INTUITOR의 이 GRPO 기반 인스턴스화에 대한 전체 파이프라인은 그림 2에 나와 있습니다.

최적화의 핵심 아이디어는 주어진 쿼리에 대해 여러 후보 출력을 샘플링하고 상대적 보상을 사용하여 정책 업데이트에 대한 이점을 추정하는 것입니다.
각 쿼리 qP(Q)q \sim P(Q)에 대해 GRPO는 행동 정책 πθold\pi_{\theta_{\text{old}}}를 사용하여 GG개의 출력 o1,,oGo_1, \dots, o_G 그룹을 샘플링합니다.

대상 정책 πθ\pi_{\theta}는 다음을 최대화하여 최적화됩니다:

여기서 ci,t(θ)=πθ(oi,tq,oi,<t)πθold(oi,tq,oi,<t)c_{i,t}(\theta) = \frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t}|q,o_{i,<t})}이고 DKL(πθπref)=πθ(oi,tq,oi,<t)logπθ(oi,tq,oi,<t)πref(oi,tq,oi,<t)D_{\text{KL}}(\pi_{\theta} \| \pi_{\text{ref}}) = \sum \pi_{\theta}(o_{i,t}|q,o_{i,<t}) \log \frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\text{ref}}(o_{i,t}|q,o_{i,<t})} (또는 원문에서 제시된 DKL(πθπref)=πθ(oi,tq,oi,<t)πref(oi,tq,oi,<t)logπθ(oi,tq,oi,<t)πref(oi,tq,oi,<t)1D_{\text{KL}}(\pi_{\theta} \| \pi_{\text{ref}}) = \frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\text{ref}}(o_{i,t}|q,o_{i,<t})} - \log \frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\text{ref}}(o_{i,t}|q,o_{i,<t})} - 1 정의를 따를 수 있습니다.

하이퍼파라미터 ϵ\epsilon(클리핑용) 및 β\beta(KL 페널티 강도용)는 안정성과 탐색을 제어하며 A^i,t\hat{A}_{i,t}는 e advantage estimate입니다.

Integration of Self-Certain.
INTUITOR의 핵심 혁신은 외부 보상을 GRPO의 이점 계산에서 자기 확신도 점수로 대체하는 것입니다.
각 출력 oio_i는 다음과 같이 점수가 매겨집니다:

이 공식은 정책이 모델 자체가 더 확신한다고 생각하는 출력을 선호하도록 하여 자기 강화 학습 루프를 생성합니다.
완전한 INTUITOR 훈련 파이프라인은 각 쿼리에 대해 여러 후보 출력을 샘플링, 각 후보에 대한 자기 확신도 점수를 계산합니다.
이 점수를 사용하여 그룹 내에서 이점을 추정하고 높은 확신도를 가진 출력을 생성할 가능성을 높이기 위해 정책을 업데이트하는 방식으로 작동합니다.
이 프로세스는 외부 감독이 필요 없으므로 도메인 및 작업 전반에 걸쳐 광범위하게 적용할 수 있습니다.

profile
AI Researcher

0개의 댓글