Process Reward Model(PRM): 결과가 아닌 과정에 보상을 주는 학습

Bean·2025년 8월 19일

AI학습전략 LLM PRM ProcessRewardModel RLHF Reasoning ReinforcementLearning

0

인공지능

목록 보기

113/123

🧩 Process Reward Model(PRM): 과정에 보상을 주는 새로운 학습 패러다임

🔹 PRM이란 무엇인가?

Process Reward Model(PRM)은 모델이 문제를 풀 때, 최종 결과(output) 뿐만 아니라 추론 과정(process) 자체에도 보상을 주는 방식입니다.

기존 강화학습(RL)에서는 보통 정답 여부에 따라 보상을 주지만, 복잡한 reasoning(추론) 문제에서는 중간 단계(step-by-step reasoning) 가 올바른지도 중요합니다.

👉 PRM은 모델이 답을 내기까지의 과정을 평가하고 보상함으로써 더 나은 reasoning 습관을 학습시킵니다.

🔹 왜 필요한가?

최종 답만 맞고 과정은 틀릴 수 있음
(예: 수학 문제 답은 맞았지만 계산 과정은 잘못됨)
Sparse reward 문제
결과만으로 보상을 주면 학습이 어렵고 불안정함
과정 단위 보상
각 단계에서 잘못된 부분을 교정할 수 있어 학습이 더 세밀하고 안정적

🔹 동작 방식

모델이 reasoning task를 수행하면서 중간 단계(step) 생성
별도의 평가자(critic model or 인간 라벨러)가 각 단계의 합리성을 평가
PRM이 단계별 보상을 부여
- 맞는 과정 → Positive reward
- 잘못된 과정 → Negative reward
이 보상을 바탕으로 RLHF(Reinforcement Learning from Human Feedback) 같은 알고리즘으로 학습 개선

🔹 장점

학습이 더 세밀하고 안정적
reasoning 오류를 줄이고 일관된 추론 과정 확보
결과뿐만 아니라 설명 가능한 reasoning 가능

🔹 예시

문제: 12 × 13 = ?

모델 추론 과정:
Step1: 12 × 10 = 120   ✅
Step2: 12 × 3 = 26     ❌ (실제는 36)
Step3: 120 + 26 = 146  ❌
최종 답: 146 (오답)

Outcome Reward: 답이 틀려서 보상 = 0
Process Reward:
- Step1 맞음 → +1
- Step2 틀림 → -1
- Step3 연산도 오류 → -1

👉 PRM은 “최종 답이 틀려도 올바른 중간 계산을 유지하는 습관”을 학습시킵니다.

🔹 PRM의 한계점

하지만 PRM은 실제 적용 과정에서 여러 어려움이 있습니다.

세밀한 단계 정의의 어려움
- 일반 reasoning 문제에서 “한 단계”를 어떻게 정의할지가 명확하지 않음
정확한 중간 단계 판정의 어려움
- 모델을 이용한 자동 평가(자동 라벨링)는 정확도가 부족할 수 있고
- 사람이 직접 평가하는 방식은 확장성(scalability)이 떨어짐
Reward hacking 문제
- 모델이 PRM을 속여 보상을 극대화하려는 편법을 찾을 수 있음
- 보상 모델 자체를 재학습해야 하는 경우가 생기며, 파이프라인이 복잡해지고 자원이 많이 듦

👉 따라서 PRM은 top-N 응답 재정렬(reranking) 이나 guided search에는 유용할 수 있지만, 대규모 강화학습에 그대로 적용하기에는 계산 비용과 복잡성이 크다는 단점이 있습니다.

🔹 정리

PRM은 “결과 중심 보상 → 과정 중심 보상”으로 확장한 개념
복잡한 reasoning 학습에서 더 안정적이고 설명 가능한 추론을 가능하게 함
그러나 단계 정의, 중간 평가 정확성, reward hacking 문제로 인해 실제 대규모 학습에서는 한계가 존재

AI developer

이전 포스트

Task-agnostic이란? 범용성을 가진 딥러닝 전략 이해하기

다음 포스트

Monte Carlo Tree Search (MCTS): 게임 AI의 혁신을 이해하다

0개의 댓글