Rewriter 2차 학습 (Reinforcement Learning; PPO)
- warm-up 된 Gθ를 initial policy model π0으로 사용함.
- 현재 상태(st)는 입력 질문(x)와 이전 step까지의 쿼리토큰 예측값(x~^<t)이다.
st=[x,x~^<t]
- EOS 토큰이 나오면 한번의 에피소드는 끝난다.
- 보상은 retrieval과 reading을 마친 LLM reader의 prediction 점수로부터 계산된다.
- x~^<t은 retriever와 reader에게 모두 주입된다. (입력으로 사용된다.)
- 보상은 y^와 정답인 y의 exact match와 F1점수로 계산된다.
