From arXiv, 2025.01
UCT 공식
agent는 잘못된 trajectory에서 오류를 감지하고, 오류가 발생한 첫번째 지점(t’)을 결정
이후 잘못도니 trajectory를 t’에서 잘라내고, t’ 이후부터는 올바른 궤적과 연결
이 과정은 agent의 selt reflection 능력을 활용하며, 실시간 수정 능력을 강화
요약: MCTS는 다양한 행동 시퀀스를 탐색하며 각 trajectory에 대한 보상을 평가하고, 잘못된 궤적과 올바른 궤적 간의 전환점을 식별한다.