IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory

하임·2026년 1월 9일

Routing

목록 보기

29/44

https://aclanthology.org/2025.acl-long.761.pdf

서론 (Introduction)

배경
- LLM(대형 언어모델)은 다양한 자연어 처리(NLP) 작업에서 우수한 성능을 보임.
- 다양한 LLM이 출시되면서 각 모델은 성능, 비용, 연산 자원 요구 사항이 크게 다름.
- 실무에서는 모든 쿼리를 가장 강력한 LLM에 라우팅하는 것은 불필요하게 비싸고, 작은 모델만 쓰면 품질이 떨어짐.
- 최적의 성능과 비용 효율을 동시에 만족하는 LLM 선택이 실제 응용의 핵심 과제.
문제점
- 기존 LLM 라우터는 단순한 룰베이스(모델 크기 순차 호출), BERT 기반 예측 등 데이터 기반 접근법 사용.
- 효과성·해석력에서 한계.
  - 효과성: 쿼리와 LLM 간의 관계를 충분히 활용하지 못함.
  - 해석력: 왜 특정 모델에 라우팅되는지 설명 어려움.
  - 새로운 쿼리(콜드스타트)에는 일반화가 부족.
기여점
- Item Response Theory(IRT, 문항반응이론)에 기반한 라우팅 프레임워크 제안.
  - LLM 능력과 쿼리 난이도를 명시적으로 모델링.
  - 라우팅 결정의 해석력(Why→Because)을 제공.
  - 온라인 쿼리 콜드스타트 문제 해결을 위한 쿼리 워밍업(warm-up) 기법 도입.
- 20개 LLM, 12개 데이터셋에서 기존 라우터 대비 높은 성능, 우수한 해석력, 강인한 일반화(특히 콜드스타트) 확인.

관련 연구 (Related Work)

Item Response Theory(IRT)
- 인간의 시험 능력 평가에 쓰이는 심리측정 이론.
- "잠재 능력(latent ability)"(사람/모델), "문항 난이도"(질문/쿼리) 등을 매개로 응답 확률을 수학적으로 모델링.
- AI·머신러닝에서 샘플 난이도 평가, 모델 평가, 추천 시스템, LLM 능력 분석 등 다양한 용도에 적용 중.
LLM 라우팅
- MoE, 앙상블, 다중 LLM 라우팅 등 다양한 접근 존재.
- FrugalGPT, AutoMix 등은 비용순 cascade, HybridLLM, RouteLLM 등은 BERT, MF 기반 예측 라우팅.
- 최근엔 GNN, KNN 등 다양한 경량·데이터 기반 라우팅이 제안됨.
- 실서비스에선 Martian, Neutrino AI, OpenRouter 등 실제 API 단위 라우팅이 상용화되고 있음.

문제 정의 및 IRT 소개 (Preliminary)

문제 정의
- 여러 개의 LLM(M1,...,Mn)과 쿼리(Q1,...,Qm) 집합이 있을 때, 각 쿼리를 최적의 LLM에 할당하여 높은 성능/낮은 비용을 달성하는 것이 목표.
- Score Function
  - S(qi Mj) = α (예상 성능) - β (비용)
  - α, β는 trade-off 조절 파라미터.
IRT 개념 도입
- 각 LLM을 '시험 응시자', 각 쿼리를 '문항'으로 모델링.
- LLM의 잠재 능력(θ), 쿼리의 난이도(b), 변별력(a) 등을 추정하여,
  - P̂(qi, Mj) = IRT(θMj; bi, ai, ...) 형태로 응답 확률(성능) 예측.

방법론 (Methods)

4.1 쿼리 및 LLM 임베딩

쿼리 임베딩: BERT 등 사전학습 모델로 쿼리 임베딩 생성.
LLM 임베딩: 각 LLM의 profile(출시일, 개발사, 설명 등)을 텍스트로 묶어 임베딩.

4.2 IRT 기반 성능 예측

MIRT-Router (IRT 기반)
- 쿼리-LLM 쌍에 대해 θ(LLM 능력), a(변별력), b(난이도) 추출.
- 논문에서는 LLM의 임베딩이 θ(잠재 능력)로, 쿼리 임베딩이 b(난이도) 및 a(변별력) 추정의 입력으로 사용됨.
- 성능 예측:
  - P̂(qi, Mj) = sigmoid(-aTθMj + b)
- 크로스 엔트로피로 학습.
NIRT-Router (Neural IRT, 능력별 Relevance 추가)
- 쿼리의 각 능력 차원별 relevance 벡터 추가(이 relevance는 쿼리 임베딩 군집, LLM-정답/오답 분포 분석 등으로 추출(k-means 등 활용)).
- relevance 벡터는 LLM 임베딩과 내적되어, 이 쿼리는 어떤 능력 차원을 가장 시험하는지를 수치로 반영.
- 미학습 쿼리(Qtest)에는 k-NN을 통해 워밍업 relevance 벡터 추정.

4.3 학습 및 추론 프로세스

훈련 단계
1. LLM별 정오(정답/오답) 데이터로 θ, a, b, relevance 벡터를 동시에 최적화.
2. 쿼리-LLM 쌍에 대해 “이 LLM이 이 쿼리를 맞힐 확률”을 학습.
3. 크로스엔트로피 손실로 예측값이 실제와 맞아떨어지도록 파라미터 조정.
라우팅(추론) 단계
1. 온라인으로 들어온 새 쿼리 → BERT 등으로 임베딩 벡터 추출.
2. 모든 LLM(후보군)에 대해 해당 쿼리에 대한 성공 확률(=성능) 예측.
3. 비용(LLM API/연산비용)과 trade-off를 감안, 가장 높은 score의 LLM에 쿼리를 라우팅.

4.4 콜드스타트 쿼리(미학습 쿼리) 대응

쿼리 워밍업(Warm-up)
- 학습에 없던 새로운 쿼리는 k-NN(임베딩 거리 기반 이웃 탐색)으로 주변 유사 쿼리의 relevance 벡터 평균/보정값을 적용.
- 즉, 유사한 쿼리들의 난이도, relevance 등을 참고해 새 쿼리의 파라미터를 임시로 할당.
- 이로써 콜드스타트 상황에서도 신속히 해석 가능하고, 일반화 능력이 향상됨.

실험 세팅 (Experimental Setup)

데이터셋
- 8개 인분포(일반 벤치마크, e.g. MMLU, CMMLU, ARC_C, SQuAD, MATH 등)
- 4개 OOD(Out-of-Distribution, e.g. CEVAL, CommonsenseQA, GSM8K, HumanEval)
- 각 쿼리에 대해 20개 LLM 모두 답변 생성, 성능(yij)은 GT와 비교해 측정
LLM 후보군
- GPT-4o, Llama3.1-8B/70B, Qwen2.5-32B, DeepSeek-Chat/Coder 등 API/로컬/특화/양상 모델 포함 20종
비교 방법
- Small LLM Only, Large LLM Only
- HybridLLM, RouteLLM 등 다른 라우터 포함
평가 지표
- Performance: 평균 정확도(벤치마크별)
- Total Cost: 전체 테스트 쿼리 비용(실제 API 가격 등 적용)
- Reward: α성능 - β정규화비용
임베딩/모델 상세
- BERT-base-uncased 사용 (embedding sensitivity 실험 포함)

실험 결과 (Experimental Results)

인분포 결과
- IRT-Router가 모든 조건(성능 중시, 비용 중시, 균형)에서 가장 높은 Reward, 높은 성능, 낮은 비용을 달성.
- 단일 LLM 기반(소형/대형) 대비 성능, 비용 모두 압도.
- Multi-LLM 라우팅이 기존 binary 라우팅(소형vs대형) 대비 훨씬 뛰어남.
OOD 결과
- OOD 테스트셋에서도 NIRT-Router가 MIRT-Router 포함 기존 대비 가장 높은 Reward, 우수한 일반화 성능.
- 콜드스타트(새 쿼리) 워밍업이 성능 개선에 실질적 도움.
해석력 분석
- 모델별 잠재 능력(ability), 쿼리 난이도, 실제 라우팅 분포를 명시적으로 시각화.
- 난이도가 높은 쿼리는 강한(비싼) LLM에, 쉬운 쿼리는 충분히 강하면서도 저렴한 LLM에 라우팅되는 경향.
추가 분석
- New LLM(Claude 3.5 Haiku 등)에 대한 generalization은 아직 제한적(ACC 0.67), 향후 개선 여지 있음.
- 임베딩 모델 종류에 따라 trade-off 존재(성능vs비용).

결론 및 한계 (Conclusion & Limitations)

요약
- IRT-Router는 LLM 능력-쿼리 난이도를 심리이론 기반으로 수치화/모델링하여,
  - 높은 해석력과 강인한 성능, 비용 효율성을 모두 만족하는 Multi-LLM 라우팅 프레임워크임을 보임.
- 대규모 LLM/데이터셋 실험으로 우수성 입증, 쿼리 콜드스타트 대응 등 실질적 현장 활용성 확보.
한계 및 향후과제
- 실험 데이터는 GT 있는 짧은 벤치마크 위주(실제 서비스 쿼리 다양성 미포함)
- α 값 변화에 따른 민감도/라우터 정밀 측정 및 LLM 능력 선형관계 등 추가 제약 연구 필요
- 쿼리·LLM 관계 제약 추가, 실사용 query 수집, few-shot·similarity 기반 cold-start 등 추가적 개선이 향후 과제

하임

NLP 공부합니당

이전 포스트

Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics

다음 포스트

IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory

Routing

Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics

Token Level Routing Inference System for Edge Devices

0개의 댓글