Process Reward Model(PRM)은 모델이 문제를 풀 때, 최종 결과(output) 뿐만 아니라 추론 과정(process) 자체에도 보상을 주는 방식입니다.
기존 강화학습(RL)에서는 보통 정답 여부에 따라 보상을 주지만, 복잡한 reasoning(추론) 문제에서는 중간 단계(step-by-step reasoning) 가 올바른지도 중요합니다.
👉 PRM은 모델이 답을 내기까지의 과정을 평가하고 보상함으로써 더 나은 reasoning 습관을 학습시킵니다.
모델이 reasoning task를 수행하면서 중간 단계(step) 생성
별도의 평가자(critic model or 인간 라벨러)가 각 단계의 합리성을 평가
PRM이 단계별 보상을 부여
이 보상을 바탕으로 RLHF(Reinforcement Learning from Human Feedback) 같은 알고리즘으로 학습 개선
문제: 12 × 13 = ?
모델 추론 과정:
Step1: 12 × 10 = 120 ✅
Step2: 12 × 3 = 26 ❌ (실제는 36)
Step3: 120 + 26 = 146 ❌
최종 답: 146 (오답)
Outcome Reward: 답이 틀려서 보상 = 0
Process Reward:
👉 PRM은 “최종 답이 틀려도 올바른 중간 계산을 유지하는 습관”을 학습시킵니다.
하지만 PRM은 실제 적용 과정에서 여러 어려움이 있습니다.
세밀한 단계 정의의 어려움
정확한 중간 단계 판정의 어려움
Reward hacking 문제
👉 따라서 PRM은 top-N 응답 재정렬(reranking) 이나 guided search에는 유용할 수 있지만, 대규모 강화학습에 그대로 적용하기에는 계산 비용과 복잡성이 크다는 단점이 있습니다.