https://arxiv.org/pdf/2505.19970
1) 문제의식과 동기
- 최신 LRM(Reasoning 전용 모델; o1/o3, DeepSeek-R1 등) 은 어려운 문제에서 강하지만, 쉬운 문제에서도 불필요하게 긴 추론을 하며 토큰/비용을 과다 소모(“overthinking”). 반대로 일반 LLM 은 간단 질의에 짧고 정확하게 답하는 경우가 많음.
- 질문: 입력마다 “LLM으로 바로 처리할지” vs “LRM으로 깊게 추론할지”를 동적으로 결정하면 정확도는 유지·개선하면서 토큰/비용을 줄일 수 있지 않을까?
2) 핵심 아이디어 (한 줄)
Conformal Prediction(CP)을 이용해 LLM의 불확실성을 예측셋(prediction set) 크기로 정량화하고, 그 크기가 작으면(확실) LLM에 잔류, 크면(불확실) LRM으로 라우팅한다. 또한 FBE(Full & Binary Entropy) 로 CP의 오류율 α\alpha를 자동 보정해 불확실성 구분력을 극대화한다. 전 과정은 훈련 없이(Training-free), 모델 불가지론적(Model-agnostic) 이다.
3) 방법 요약: CP-Router
- 세팅: MCQA(객관식) 기준. LLM이 각 선택지 y∈{A,B,C,D} 에 주는 확률 f(y)를 구하고, 비적합 점수 S(x,y)=1−f(y) 를 정의.
- 임계값: 보정셋의 점수분포에서 q^\hat q (상위 1−α1-\alpha 분위)를 구해, 예측셋 C(x)={y:S(x,y)≤q^} 을 생성.
- 라우팅 규칙: ∣C(x)∣≤τ (보통 τ=1) 이면 LLM 처리, 아니면 LRM으로 라우팅. 예측셋이 작을수록 확실, 크면 불확실로 해석. CP는 유한 표본에서 커버리지 보장(진실 라벨이 1−α1-\alpha 이상 확률로 예측셋에 포함).
3.2 FBE: α 자동 보정(Adaptive Calibration)
- α 값에 따라 예측셋 크기 분포가 달라지고, 이는 라우팅 밸런스(LLM↔LRM)와 구분력(쉬운/어려운 질의 분리)에 직결.
- FBE 정의: FBE=β⋅Hfull+Hbinary
- Hfull: 예측셋 크기 전체 분포의 엔트로피(전 구간 다양성↑ → 불확실성 구분력↑)
- Hbinary: 싱글톤(|C|=1) vs 비싱글톤(|C|>1) 비율의 이진 엔트로피(라우팅 쏠림 방지)
- 구현은 α\alpha 후보 그리드에서 FBE를 최대화하는 α*\alpha^* 선택(실험에선 Hfull:Hbinary=3:1 가중 사용).
3.3 전체 알고리즘(요지)
- Calibration: LLM 로그잇→소프트맥스로 보정셋 점수 S(x,y) 계산, 분위수 q^α 추정.
- α선택: 후보 α 별로 예측셋 분포를 만들고 FBE 최대가 되는 α*채택.
- Routing: 테스트(운영)에서 α*로 예측셋 생성, ∣C(x)∣≤τ 면 LLM, 아니면 LRM. (논문 부록에 의사코드 수록)
4) 실험 설정
- 모델 페어(대표):
- Llama-3.1-8B (LLM) ↔ DeepSeek-R1-Distill-Llama-8B (LRM)
- Qwen-2.5-14B (LLM) ↔ DeepSeek-R1-Distill-Qwen-14B (LRM)
- 대형도 일부 측정: DeepSeek-V3, DeepSeek-R1 (GPQA)
- 벤치마크: 수학/논리/과학 등 7개 MCQA(MMLU-STEM 서브셋, STEM-MCQA, GSM8K(선다화 변환), LogiQA, GPQA, CN-Chemistry 등).
- 평가 지표:
- Acc(정확도)
- TRR(Token Reduction Ratio): LRM 대비 출력 토큰 절감율(라우팅/추론 토큰 포함)
- Utoken: LRM 대비 정확도 이득 ÷ 토큰 사용 비율(효율–효과 통합 지표)Utoken=1−TRRAcc−AccLLM
5) 주요 결과
- 토큰 효율·정확도 동시 달성:
- Llama 페어 전 벤치마크에서 Utoken 최고. Qwen 페어에선 6개 중 5개 최고. (예: College Math에서 Llama 페어는 LRM 정확도보다 +1.2%p 높이면서 토큰도 절감)
- CN-Chemistry(중문 과학)처럼 LLM이 더 강한 경우에도 CP-Router가 정확도 추가 개선(+0.8%p 등) 및 토큰 절감 달성.
- 대형 모델 시나리오(GPQA): V3↔R1 조합에서 정확도 상승과 함께 R1 호출 54.7%만 사용하여 토큰 절감.
- GSM8K(자유형 → 5지선다로 변환): LRM 대비 정확도 −1.1%p 수준으로 근접하면서 32.9% 토큰 절감.
- 해석: 예측셋 크기가 실제로 쉬운/어려운 질의를 잘 가르는 신호이며, CP-Router가 간단 질의는 LLM, 어려운 질의는 LRM으로 자연스럽게 분배함을 입증.
6) 소거 실험(Ablation) 인사이트
- FBE 구성요소:
- Full entropy만 제거 → 토큰 절감은 크지만 정확도 급락(고난도도 싹 LLM으로 몰아부침).
- Binary entropy만 사용 → 정확도는 유지되나 토큰 절감 거의 없음(싱글톤/비싱글톤 균형만 맞추고 세밀 구분력 부족).
- 둘 다 사용(3:1 가중) → 정확도–토큰 절감 균형 최적.
- 결론: α\alpha 자동 보정이 핵심 성분. α\alpha를 잘못 고르면 라우팅이 한쪽으로 쏠리거나 과도해져 효율·성능이 동시에 악화.
7) 장점과 한계/주의
장점
- 훈련 불필요, 모델·도메인 불문: 라우터 학습 없이 붙여 쓸 수 있고, 다양한 LLM↔LRM 페어에서 재현.
- 이론적 보장: CP의 coverage 보장으로 “예측셋”의 해석이 명확(실전 라우팅 근거를 수치화).
한계·주의
- 로그잇 접근 필요: 본 논문 주류 세팅은 로그잇/확률 접근이 가능하다는 가정(순수 API형 폐쇄모델엔 제약).
- (참고: 타 연구들엔 샘플링 기반 CP도 있으나, 본 논문 자체의 주 주장 범위를 넘어섭니다.)
- α\alpha 선택의 데이터 의존성: 본문에서는 α\alpha 탐색에 테스트 분포를 활용하는 서술이 있어, 실무에선 개발셋으로 FBE를 추정하는 것이 안전.
- 개방형 QA 변환(GSM8K)은 5지선다 구성 품질에 민감.(‘Others’ 옵션 추가 등)