ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search

룰루·2024년 11월 28일

LLM논문리뷰

목록 보기
6/7

배경

언어 모델은 아이유의 엄마는 누구인가? 와 같은 질문에는 답을 잘하지만,
‘분홍신’을 부른 가수의 엄마는 누구인가? 와 같이 다양한 정보를 조합하여 추론해야 하는 질문에는 답변을 못한다.

모델의 크기와 관계없이!

그렇다면 어떻게 하면 모델이 추론(reasoning)을 잘하게 할까? -> 추론 데이터셋을 만든다!

질문: 2+ 2+2 의 답은 뭐야?

추론: 
Step 1: 2+2+2는 4+2이다.
Step 2: 4+2는 6이다.
Step 3: 답은 6이다! 

이러한 데이터셋을 아주 많이 만들어야 한다. 그러나 인간이 이러한 데이터를 많이 만들기는 쉽지 않다.

그렇다고 LLM이 만들기에는, 추론은 틀리지만 답은 맞는 false positive 답변들이 있을 수 있다.
이때 고품질의 데이터를 LLM이 만드는 것을, MCTS(몬테 카를로 트리 검색)을 이용해 만든다.

몬테 카를로 트리 검색이란 무엇인가?

점수제를 사용해, 가장 높은 점수를 가진 노드를 계속해서 탐색하되, 한번도 가본 적 없는 노드도 탐험한다!
탐험탐색의 균형을 잡았다.

MCTS가 효율적인 탐색과 데이터 생성을 지원하며 추론 과정의 품질을 향상시키는 데 매우 유용하다!

이것과 같이 왼쪽 경로를 집중적으로 탐색하되, 한번도 가보지 않은 왼쪽 노드도 탐험하는 것이다.
(출처: https://www.youtube.com/watch?v=mfAV_bigdRA)

모델

  • MCTS*: PRM(Process Reward Model)의 가이드를 받아 트리 탐색을 수행.

  • Process Reward Model (PRM):중간 추론 단계를 평가함.

  • Policy Model: 각 문제에 대한 중간 추론 단계를 생성함.

  • LLM Self-Training: MCTS*를 사용하여 추론 경로(reasoning traces)를 수집하고, 맞는 답변을 내놓은 샘플을 기반으로 정책 모델(policy model)을 훈련하며, 모든 생성된 경로를 기반으로 PRM 훈련함.

Search-based Reasoning Policy for LLM

이때, 노드 선택 기준은 각 노드의 품질을 중요시여기기에 UCB로 평가하였다.

그럼 여기서 v_c는 어떻게 구하냐!

요렇게, 부모 노드의 값과 지금 노드가 답변에 미치는 영향을 평가한 w_sk도 있다.

이때 m_k는 전체 reasoning 스텝에서 답변까지 남은 스텝의 갯수이다. 즉, 답변과 가까울수록 작은 값을 지닌다.
이때 r_sk는 MATH-SHEPHERD의 보상함수를 사용했다.

Self-Training Pipeline

원 데이터 D_0을 이용하여 PRM을 훈련시킨다.

  • 우선,process reward model을 위한 process reward를 건져야한다.
    다 끝나지 않은 가지들을 가지치기한 다음, m_k를 계산한다음 오직 최종정답만들 가지고 reward를 계산하는
    Hard estimation을 진행한다. m_k와 r_sk를 이용하여 모든 노드의 v를 구할 수 있다.
    이후, PRM 모델을 훈련시킬 때는 cross entropy형식을 이용하여 binary classification에서 sigmoid를 거친 r_si의 확률을 구한다.
    업로드중..

  • policy 모델을 위해 reasoning traces 를 계산한다. 맞는 답변을 지닌 traces만 골라

    D_gi를 만들어 policy model을 파인튜닝한다.

    또는 틀린 경우까지 모두 모아 DPO를 실행하기도 한다.

  • process reward model과 policy model 보완적으로 학습

    policy model로 MCTS 수행하여 답변 생성 후, 그 데이터셋을 이용해 PRM 모델 학습.
    PRM이 보상을 평가하여 high-reward traces를 식별하고, Policy Model은 이 데이터를 사용해 업데이트됨

profile
일단 적어

0개의 댓글