CP-Router: An Uncertainty-Aware Router Between LLM and LRM

하임·2026년 1월 9일

Routing

목록 보기
33/44

https://arxiv.org/pdf/2505.19970


1) 문제의식과 동기

  • 최신 LRM(Reasoning 전용 모델; o1/o3, DeepSeek-R1 등) 은 어려운 문제에서 강하지만, 쉬운 문제에서도 불필요하게 긴 추론을 하며 토큰/비용을 과다 소모(“overthinking”). 반대로 일반 LLM 은 간단 질의에 짧고 정확하게 답하는 경우가 많음.
  • 질문: 입력마다 “LLM으로 바로 처리할지” vs “LRM으로 깊게 추론할지”를 동적으로 결정하면 정확도는 유지·개선하면서 토큰/비용을 줄일 수 있지 않을까?

2) 핵심 아이디어 (한 줄)

Conformal Prediction(CP)을 이용해 LLM의 불확실성을 예측셋(prediction set) 크기로 정량화하고, 그 크기가 작으면(확실) LLM에 잔류, 크면(불확실) LRM으로 라우팅한다. 또한 FBE(Full & Binary Entropy) 로 CP의 오류율 α\alpha를 자동 보정해 불확실성 구분력을 극대화한다. 전 과정은 훈련 없이(Training-free), 모델 불가지론적(Model-agnostic) 이다.


3) 방법 요약: CP-Router

3.1 Conformal Prediction으로 불확실성 측정

  • 세팅: MCQA(객관식) 기준. LLM이 각 선택지 y{A,B,C,D}y\in\{A,B,C,D\} 에 주는 확률 f(y)를 구하고, 비적합 점수 S(x,y)=1f(y)S(x,y)=1-f(y) 를 정의.
  • 임계값: 보정셋의 점수분포에서 q^\hat q (상위 1−α1-\alpha 분위)를 구해, 예측셋 C(x)={y:S(x,y)q^}C(x)=\{y: S(x,y)\le \hat q\} 을 생성.
  • 라우팅 규칙: C(x)τ|C(x)|\le \tau (보통 τ=1) 이면 LLM 처리, 아니면 LRM으로 라우팅. 예측셋이 작을수록 확실, 크면 불확실로 해석. CP는 유한 표본에서 커버리지 보장(진실 라벨이 1−α1-\alpha 이상 확률로 예측셋에 포함).

3.2 FBE: α 자동 보정(Adaptive Calibration)

  • α 값에 따라 예측셋 크기 분포가 달라지고, 이는 라우팅 밸런스(LLM↔LRM)와 구분력(쉬운/어려운 질의 분리)에 직결.
  • FBE 정의: FBE=βHfull+Hbinary\text{FBE} = \beta\cdot H_{\text{full}} + H_{\text{binary}}
    • HfullH_{\text{full}}: 예측셋 크기 전체 분포의 엔트로피(전 구간 다양성↑ → 불확실성 구분력↑)
    • HbinaryH_{\text{binary}}: 싱글톤(|C|=1) vs 비싱글톤(|C|>1) 비율의 이진 엔트로피(라우팅 쏠림 방지)
  • 구현은 α\alpha 후보 그리드에서 FBE를 최대화하는 α*\alpha^* 선택(실험에선 Hfull:Hbinary=3:1H_{\text{full}}:H_{\text{binary}}=3:1 가중 사용).

3.3 전체 알고리즘(요지)

  1. Calibration: LLM 로그잇→소프트맥스로 보정셋 점수 S(x,y) 계산, 분위수 q^α\hat q_\alpha 추정.
  2. α선택: 후보 α 별로 예측셋 분포를 만들고 FBE 최대가 되는 α*채택.
  3. Routing: 테스트(운영)에서 α*로 예측셋 생성, C(x)τ|C(x)|\le \tauLLM, 아니면 LRM. (논문 부록에 의사코드 수록)

4) 실험 설정

  • 모델 페어(대표):
    • Llama-3.1-8B (LLM) ↔ DeepSeek-R1-Distill-Llama-8B (LRM)
    • Qwen-2.5-14B (LLM) ↔ DeepSeek-R1-Distill-Qwen-14B (LRM)
    • 대형도 일부 측정: DeepSeek-V3, DeepSeek-R1 (GPQA)
  • 벤치마크: 수학/논리/과학 등 7개 MCQA(MMLU-STEM 서브셋, STEM-MCQA, GSM8K(선다화 변환), LogiQA, GPQA, CN-Chemistry 등).
  • 평가 지표:
    • Acc(정확도)
    • TRR(Token Reduction Ratio): LRM 대비 출력 토큰 절감율(라우팅/추론 토큰 포함)
    • Utoken: LRM 대비 정확도 이득 ÷ 토큰 사용 비율(효율–효과 통합 지표)Utoken=AccAccLLM1TRRU_{\text{token}} = \frac{\text{Acc}-\text{Acc}_{\text{LLM}}}{1-\text{TRR}}

5) 주요 결과

  • 토큰 효율·정확도 동시 달성:
    • Llama 페어 전 벤치마크에서 Utoken 최고. Qwen 페어에선 6개 중 5개 최고. (예: College Math에서 Llama 페어는 LRM 정확도보다 +1.2%p 높이면서 토큰도 절감)
    • CN-Chemistry(중문 과학)처럼 LLM이 더 강한 경우에도 CP-Router가 정확도 추가 개선(+0.8%p 등) 및 토큰 절감 달성.
    • 대형 모델 시나리오(GPQA): V3↔R1 조합에서 정확도 상승과 함께 R1 호출 54.7%만 사용하여 토큰 절감.
    • GSM8K(자유형 → 5지선다로 변환): LRM 대비 정확도 −1.1%p 수준으로 근접하면서 32.9% 토큰 절감.
  • 해석: 예측셋 크기가 실제로 쉬운/어려운 질의를 잘 가르는 신호이며, CP-Router가 간단 질의는 LLM, 어려운 질의는 LRM으로 자연스럽게 분배함을 입증.

6) 소거 실험(Ablation) 인사이트

  • FBE 구성요소:
    • Full entropy만 제거 → 토큰 절감은 크지만 정확도 급락(고난도도 싹 LLM으로 몰아부침).
    • Binary entropy만 사용 → 정확도는 유지되나 토큰 절감 거의 없음(싱글톤/비싱글톤 균형만 맞추고 세밀 구분력 부족).
    • 둘 다 사용(3:1 가중)정확도–토큰 절감 균형 최적.
  • 결론: α\alpha 자동 보정이 핵심 성분. α\alpha를 잘못 고르면 라우팅이 한쪽으로 쏠리거나 과도해져 효율·성능이 동시에 악화.

7) 장점과 한계/주의

장점

  • 훈련 불필요, 모델·도메인 불문: 라우터 학습 없이 붙여 쓸 수 있고, 다양한 LLM↔LRM 페어에서 재현.
  • 이론적 보장: CP의 coverage 보장으로 “예측셋”의 해석이 명확(실전 라우팅 근거를 수치화).

한계·주의

  • 로그잇 접근 필요: 본 논문 주류 세팅은 로그잇/확률 접근이 가능하다는 가정(순수 API형 폐쇄모델엔 제약).
    • (참고: 타 연구들엔 샘플링 기반 CP도 있으나, 본 논문 자체의 주 주장 범위를 넘어섭니다.)
  • α\alpha 선택의 데이터 의존성: 본문에서는 α\alpha 탐색에 테스트 분포를 활용하는 서술이 있어, 실무에선 개발셋으로 FBE를 추정하는 것이 안전.
  • 개방형 QA 변환(GSM8K)은 5지선다 구성 품질에 민감.(‘Others’ 옵션 추가 등)

profile
NLP 공부합니당

0개의 댓글