
토큰 레벨 협업 디코딩에서 과도한 모델 전환 비용과 숫자·수식 등 연속 스팬 파손 문제를 동시에 해결하기 위해모델 지속성(persistence) + 스팬-가드(span-aware gating) + 경량 GRU 라우터를 결합한 라우팅 프레임워크
TL;DR > SLM이 먼저 초안(draft)을 만들고, 각 서브쿼리 단계에서 Retain / Revise / Rewrite를 고르는 반추(reflective) 라우팅. > 토큰-레벨 스위칭 없이 소수의 재검토 지점만 사용해 LLM 호출 최소화 + 정확도 유지/향상. 목차 1) 한눈에 요약 2) 왜 필요한가? 3) 방법론 3.1 문제 분해 & 초안 ...

step 단위에서 routing policy를 학습하여 accuracy–cost trade-off를 최적화하는 방법의 작성한 논문