Process Reward Model(PRM): 결과가 아닌 과정에 보상을 주는 학습

Bean·2025년 8월 19일
0

인공지능

목록 보기
113/123

🧩 Process Reward Model(PRM): 과정에 보상을 주는 새로운 학습 패러다임

🔹 PRM이란 무엇인가?

Process Reward Model(PRM)은 모델이 문제를 풀 때, 최종 결과(output) 뿐만 아니라 추론 과정(process) 자체에도 보상을 주는 방식입니다.

기존 강화학습(RL)에서는 보통 정답 여부에 따라 보상을 주지만, 복잡한 reasoning(추론) 문제에서는 중간 단계(step-by-step reasoning) 가 올바른지도 중요합니다.

👉 PRM은 모델이 답을 내기까지의 과정을 평가하고 보상함으로써 더 나은 reasoning 습관을 학습시킵니다.


🔹 왜 필요한가?

  • 최종 답만 맞고 과정은 틀릴 수 있음
    (예: 수학 문제 답은 맞았지만 계산 과정은 잘못됨)
  • Sparse reward 문제
    결과만으로 보상을 주면 학습이 어렵고 불안정함
  • 과정 단위 보상
    각 단계에서 잘못된 부분을 교정할 수 있어 학습이 더 세밀하고 안정적

🔹 동작 방식

  1. 모델이 reasoning task를 수행하면서 중간 단계(step) 생성

  2. 별도의 평가자(critic model or 인간 라벨러)가 각 단계의 합리성을 평가

  3. PRM이 단계별 보상을 부여

    • 맞는 과정 → Positive reward
    • 잘못된 과정 → Negative reward
  4. 이 보상을 바탕으로 RLHF(Reinforcement Learning from Human Feedback) 같은 알고리즘으로 학습 개선


🔹 장점

  • 학습이 더 세밀하고 안정적
  • reasoning 오류를 줄이고 일관된 추론 과정 확보
  • 결과뿐만 아니라 설명 가능한 reasoning 가능

🔹 예시

문제: 12 × 13 = ?

모델 추론 과정:
Step1: 12 × 10 = 120   ✅
Step2: 12 × 3 = 26     ❌ (실제는 36)
Step3: 120 + 26 = 146  ❌
최종 답: 146 (오답)
  • Outcome Reward: 답이 틀려서 보상 = 0

  • Process Reward:

    • Step1 맞음 → +1
    • Step2 틀림 → -1
    • Step3 연산도 오류 → -1

👉 PRM은 “최종 답이 틀려도 올바른 중간 계산을 유지하는 습관”을 학습시킵니다.


🔹 PRM의 한계점

하지만 PRM은 실제 적용 과정에서 여러 어려움이 있습니다.

  1. 세밀한 단계 정의의 어려움

    • 일반 reasoning 문제에서 “한 단계”를 어떻게 정의할지가 명확하지 않음
  2. 정확한 중간 단계 판정의 어려움

    • 모델을 이용한 자동 평가(자동 라벨링)는 정확도가 부족할 수 있고
    • 사람이 직접 평가하는 방식은 확장성(scalability)이 떨어짐
  3. Reward hacking 문제

    • 모델이 PRM을 속여 보상을 극대화하려는 편법을 찾을 수 있음
    • 보상 모델 자체를 재학습해야 하는 경우가 생기며, 파이프라인이 복잡해지고 자원이 많이 듦

👉 따라서 PRM은 top-N 응답 재정렬(reranking) 이나 guided search에는 유용할 수 있지만, 대규모 강화학습에 그대로 적용하기에는 계산 비용과 복잡성이 크다는 단점이 있습니다.


🔹 정리

  • PRM은 “결과 중심 보상 → 과정 중심 보상”으로 확장한 개념
  • 복잡한 reasoning 학습에서 더 안정적이고 설명 가능한 추론을 가능하게 함
  • 그러나 단계 정의, 중간 평가 정확성, reward hacking 문제로 인해 실제 대규모 학습에서는 한계가 존재

profile
AI developer

0개의 댓글