REROUTING LLM ROUTERS

하임·2025년 2월 2일

Routing

목록 보기

10/10

논문 제목: Rerouting LLM Routers

저자: Avital Shafran, Roei Schuster, Thomas Ristenpart, Vitaly Shmatikov

초록 (Abstract)

LLM(대형 언어 모델) 라우터는 쿼리의 복잡도에 따라 저비용 및 고성능 LLM으로 분류하고 라우팅하여 응답의 품질과 비용을 균형 있게 조정하는 시스템입니다. 본 논문은 이러한 LLM 라우터의 공격 저항성(adversarial robustness)을 조사합니다.

핵심 기여 내용:

LLM 제어 평면 무결성(Control Plane Integrity): LLM 라우터의 보안과 신뢰성에 관한 새로운 AI 안전 문제를 정의했습니다.
혼란 유발 장치(Confounder Gadgets): 쿼리에 특정 토큰 시퀀스를 추가함으로써 강력한 LLM으로 쿼리를 라우팅할 수 있는 공격 방식을 제시했습니다.
공격 실험 및 효과: 오픈 소스 및 상용 LLM 라우터에 대해 이 공격 방식의 유효성을 실험적으로 입증했습니다.
방어 방안: 혼란 유발 장치를 탐지할 수 있는 perplexity 기반 방어와 대체 방어 방안을 검토했습니다.

1. 서론 (Introduction)

LLM은 다양한 작업에서 높은 성능을 보이나, 고성능 모델의 사용 비용이 매우 높음.
비용과 품질을 균형 있게 조정하기 위해 LLM 라우터가 개발됨.
LLM 라우터는 복잡한 쿼리는 고비용 고성능 모델로, 단순한 쿼리는 저비용 저성능 모델로 라우팅함.
본 논문은 이러한 LLM 라우터의 공격 저항성(adversarial robustness) 문제를 집중적으로 다룸.

2. LLM 제어 평면 및 라우팅 (LLM Control Planes and Routing)

LLM 제어 평면 (LLM Control Plane):

여러 개의 LLM을 관리하고 라우팅하는 시스템을 의미함.
특정 입력에 대해 어느 LLM을 사용할지 결정하는 알고리즘 포함.

LLM 라우터의 주요 형태:

Prescriptive Routing (규정 기반 라우팅): 특정 기준에 따라 쿼리를 분류하고 LLM을 선택함.
Non-Prescriptive Routing (비규정 기반 라우팅): 여러 모델을 순차적으로 실행하여 충분한 품질을 제공하는 첫 번째 모델을 선택.

3. LLM 제어 평면 무결성 (LLM Control Plane Integrity)

정의:

제어 평면 무결성이란, 악의적인 입력 쿼리에 대해 라우터가 왜곡되지 않고 올바른 라우팅 결정을 내리는 특성을 의미함.

공격 시나리오:

공격자가 쿼리를 조작하여 저성능 모델이 아닌 고성능 모델로만 라우팅되도록 만듦.
비용 증가 및 품질 조작을 유도함.

4. LLM 라우터 교란 (Confounding Control Planes with Gadgets)

공격 방식:

혼란 유발 장치(Confounder Gadget): 쿼리에 독립적으로 추가되는 토큰 시퀀스.
특정한 토큰을 쿼리에 추가함으로써, 쿼리의 복잡도를 인위적으로 높여 고성능 LLM을 사용하도록 라우팅을 조작함.

공격 예시:

“confounder gadget”을 쿼리 앞에 추가.
예: !!!!!!! complex query → 강력한 모델로 라우팅

5. 오픈 소스 라우터 실험 (Open-Source Routers: Experimental Setup)

사용한 라우팅 알고리즘:

RSW (Similarity-weighted ranking): 유사도 기반 라우팅
RMF (Matrix Factorization): 행렬 분해 기반 라우팅
RCLS (BERT Classifier): BERT 분류기
RLLM (LLM Scoring): LLM 자체 평가 기반 라우팅

평가 데이터셋:

MT-Bench: 160개 오픈 엔드 질문
MMLU: 14,042개의 다중 선택 질문
GSM8K: 1,319개 수학 문제

6. 상용 라우터 교란 (Rerouting Commercial Routers)

테스트 라우터:

Unify
NotDiamond
OpenRouter
Martian

결과적으로, confounder gadget을 사용하여 대부분의 라우터에서 고성능 LLM으로의 라우팅을 유도하는 데 성공함.

7. 방어 방안 (Defenses)

1. Perplexity 기반 필터링:

혼란 유발 장치가 일반 텍스트보다 높은 perplexity를 가지므로 이를 탐지하는 방식.
그러나, perplexity를 낮춘 confounder gadget을 생성할 수 있어 방어를 우회 가능.

2. LLM 기반 필터링:

LLM을 사용하여 입력의 자연스러움을 판별.
비용과 성능 문제로 인해 비효율적일 수 있음.

3. 유저 기반 라우팅 패턴 모니터링:

특정 사용자가 반복적으로 고성능 모델을 사용하는지 감지.

8. 결론 (Conclusion)

LLM 라우터는 비용과 성능의 균형을 조정하는 데 유용하지만, 혼란 유발 장치(confounder gadget)를 통해 악의적으로 조작될 수 있음.
다양한 오픈소스 및 상용 라우터에서 이 공격 방식의 효과를 입증함.
단순 perplexity 기반 방어는 효과적이지 않으며, 보다 강력한 방어 기술이 필요함.

핵심 용어 정리:

LLM Control Plane: 여러 LLM을 관리하고 라우팅하는 시스템.
Confounder Gadget: 쿼리를 조작하여 강력한 모델로 라우팅을 유도하는 토큰 시퀀스.
Perplexity: 텍스트의 자연스러움을 측정하는 메트릭.

초록 (Abstract) - 상세 번역

LLM 라우터는 쿼리의 복잡도에 따라 저렴한 LLM과 고성능 LLM을 분류하고 라우팅하여, 생성 품질과 비용 간의 균형을 조절하는 것을 목표로 합니다. 라우터는 하나 이상의 LLM을 오케스트레이션하는 LLM 제어 평면(LLM control planes)의 한 형태입니다. 본 논문에서는 이러한 라우터의 적대적 공격 저항성(adversarial robustness)을 조사합니다.

우리는 LLM 제어 평면 무결성(LLM control plane integrity), 즉 적대적 입력에 대한 LLM 오케스트레이션의 견고성을 새로운 AI 안전 문제로 정의합니다.

그다음, 쿼리에 특정 독립적인 토큰 시퀀스를 추가함으로써 강력한 LLM으로 라우팅을 유도할 수 있는 혼란 유발 장치(confounder gadgets)를 소개합니다.

정량적 평가 결과:

이 공격은 화이트 박스(White-box)와 블랙 박스(Black-box) 설정 모두에서 성공적이었습니다.
혼란 유발 장치를 추가하더라도 LLM의 응답 품질에는 영향을 미치지 않았습니다.

또한 우리는 혼란 유발 장치가 낮은 perplexity를 유지하면서도 효과적으로 라우팅을 조작할 수 있다는 점을 입증했습니다.

따라서, perplexity 기반 방어는 효과적이지 않음을 보였으며, 대체 방어 기술을 논의하며 결론을 마무리합니다.

1. 서론 (Introduction) - 상세 번역

대형 언어 모델(LLMs)은 다양한 작업에서 놀라운 성능을 보여주고 있습니다.

오늘날 수백 개의 오픈 소스 및 상용 LLM들이 존재하며, 고성능 모델부터 저성능 및 저비용 모델까지 다양합니다.

LLM 제공업체들은 주로 API 기반으로 서비스를 제공하며, 특히 고성능 모델의 경우 쿼리당 비용을 부과합니다.

이로 인해 LLM을 활용하는 애플리케이션의 비용 부담이 증가하고 있습니다.

개발자들의 과제:

개발자들은 응답 품질과 비용 절감이라는 상충하는 목표를 모두 만족시켜야 합니다.
고성능 모델: 일반적으로 더 높은 품질의 응답을 제공하지만 비용이 높음.
저성능 모델: 저렴하지만 일부 복잡한 쿼리에 대해 품질 저하가 발생할 수 있음.

예시 비용 (2023년 기준):

GPT-3.5 Turbo: $0.5 (입력) / $1.5 (출력) per 1M tokens

GPT-4o: $0.3 (입력) / $0.6 (출력) per 1M tokens

GPT-4-1106: $2.5 (입력) / $10 (출력) per 1M tokens

LLM 라우팅 시스템 (LLM Routing Systems)

해결책: 비용과 품질의 균형을 조정하기 위해 LLM 라우팅 시스템이 개발됨.
두 개 이상의 LLM을 사용하여, 저비용 LLM으로 대부분의 쿼리를 처리하고, 고난이도 쿼리에만 고성능 LLM을 사용하는 방식.

예:

MsM_s: 고성능, 고비용 LLM (예: GPT-4)
MwM_w: 저성능, 저비용 LLM (예: LLaMA 2)

라우팅 알고리즘 R(q)\mathcal{R}(q)는 쿼리 qq의 복잡도를 평가하여, MwM_w로 충분히 처리 가능한 경우 해당 모델을 사용하고, 그렇지 않을 경우 MsM_s를 사용하는 방식입니다.

본 논문의 기여 (Our Contributions)

우리는 LLM 제어 평면 무결성(LLM control plane integrity)이라는 새로운 AI 안전 개념을 도입합니다.
이 문제는 기존의 적대적 샘플 공격(adversarial robustness)과는 다른 새로운 도전 과제입니다.

2. LLM Control Planes and Routing (LLM 제어 평면과 라우팅) - 상세 번역

LLM을 사용한 추론 방식은 전통적으로 단일 모델(monolithic) 방식으로, 하나의 모델이 전체 입력을 처리합니다.

그러나 이러한 방식은 여러 가지 이유로 비효율적일 수 있습니다.

고성능 LLM의 비용 부담: 일부 모델은 쿼리당 수 달러의 비용이 발생할 수 있음.
특정 LLM의 특화 성능: 특정 작업에서 특정 모델이 더 우수할 수 있음.
단일 모델의 한계: 동일한 모델로 모든 쿼리를 처리할 경우 성능 향상이 제한될 수 있음.

LLM 제어 평면 (LLM Control Plane)

LLM Control Plane은 여러 LLM을 조율하고, 쿼리를 서로 다른 LLM으로 라우팅하는 시스템입니다.
이를 통해 특정 쿼리나 입력 일부를 다른 LLM에 할당하거나, 여러 모델의 응답을 결합할 수 있습니다.

LLM 라우터 (LLM Routers)

LLM 라우터는 LLM Control Plane의 한 형태로, 쿼리의 복잡도를 평가하여 사용할 LLM을 결정합니다.

1) 규정 기반 라우팅 (Prescriptive Routing):

*경량 분류기(lightweight classifier)**를 사용하여 쿼리 복잡도를 평가.
복잡도가 높으면 고성능 LLM을, 낮으면 저비용 LLM을 선택.
분류기는 학습된 함수로 쿼리의 복잡도를 점수화합니다.
임계값(Threshold)을 설정하여 비용-성능의 균형을 조절합니다.

2) 비규정 기반 라우팅 (Non-prescriptive Routing):

쿼리를 여러 LLM에 제출하고, 충분한 품질의 응답을 제공할 때까지 실행하는 방식.
예시: FrugalGPT는 순차적으로 LLM을 실행하여 만족스러운 응답을 받을 때까지 반복.

LLM 라우터의 활용 사례 (Applications of LLM Routers)

상업적 서비스: Unify, Martian, NotDiamond 등의 상용 라우터.
운영 방식:
- 쿼리를 저비용 LLM에 먼저 전달.
- 품질이 충분하지 않을 경우, 고성능 LLM을 호출.

비용 절감 효과:

비용 절감: 최대 60% 이상 절감 가능.
특정 시스템(예: NotDiamond): 최대 80% 절감.

2. LLM Control Planes and Routing (LLM 제어 평면과 라우팅)

LLM을 이용한 추론은 전통적으로 단일 모델(monolithic) 방식을 따릅니다. 이는 하나의 모델이 특정 입력이나 입력 시퀀스에 적용되는 방식입니다. 그러나 이러한 방식은 여러 이유로 비효율적일 수 있습니다. 최첨단 LLM들은 상당히 고가의 API를 제공하며, 입력 토큰당 비용이 수 달러에 이를 수 있습니다. 이와 대조적으로, 특정 LLM들은 특정 작업에서 더 우수한 성능을 보일 수 있으며, 이러한 모델을 선택적으로 사용하는 것이 전반적인 품질을 향상시킬 수 있습니다. 마지막으로, 단일 LLM은 동일한 작업을 훈련시킨 경우에도 성능 향상이 제한적일 수 있습니다.

LLM 제어 평면 (LLM Control Plane)

연구자들과 실무자들은 이제 여러 LLM을 동시에 사용하는 새로운 추론 아키텍처를 개발하고 있습니다. 이러한 LLM들은 우리가 LLM 제어 평면(LLM Control Plane)이라 부르는 시스템에 의해 오케스트레이션됩니다. 이 용어는 네트워크 오케스트레이션에서 차용한 것입니다.

제어 평면은 쿼리의 전체 혹은 일부를 서로 다른 LLM으로 라우팅할 수 있습니다.
새로운 스트링을 생성하기 위해 LLM을 활용하거나, 여러 LLM의 응답을 결합하는 기능도 포함할 수 있습니다.

LLM 라우터 (LLM Routers)

LLM 제어 평면의 대표적인 예는 LLM 라우터입니다. (참고: [27,41,47,53,59])

LLM 라우터는 두 개 혹은 그 이상의 LLM 중 어떤 것을 사용하여 쿼리를 처리할지 결정합니다.

규정 기반 라우팅 (Prescriptive Routing)

라우터는 경량 분류기(lightweight classifier)를 사용하여 쿼리의 복잡도를 평가하고, 이를 기반으로 사용할 LLM을 결정합니다.
분류기는 학습된 함수로, 쿼리의 복잡도를 점수화합니다.
배포 환경에서는 특정 복잡도 점수를 초과할 경우 고성능 LLM으로 쿼리를 라우팅하는 임계값(threshold)을 설정할 수 있습니다.
이 임계값은 특정 대표 워크로드를 기반으로 비용-성능 균형을 조정하는 데 사용됩니다.

Figure 1은 바이너리 LLM 라우터의 기본 워크플로를 설명합니다.

비규정 기반 라우팅 (Non-prescriptive Routing)

비규정 라우팅은 하나 이상의 LLM으로부터 받은 응답을 기반으로 최적의 결과를 선택하는 방식입니다.

예를 들어, FrugalGPT [20]는 쿼리를 순차적으로 여러 LLM에 제출하고, 특정 모델에서 충분히 좋은 품질의 응답을 받을 때까지 쿼리를 전송하는 캐스케이드 방식을 사용합니다.

비용 절감을 넘어서, 품질 향상 중심의 라우터 (Quality-Focused Routers)

비용 절감을 목적으로 하는 라우터와 달리, 일부 LLM 라우터는 응답 품질 향상을 중심으로 설계되었습니다. (참고: [31,45,57,58])

다른 LLM 제어 평면 아키텍처:

MoE (Mixture-of-Experts)
- 여러 LLM 중 일부를 선택하여, 쿼리의 각 토큰에 대해 특정 모델을 적용하고, 그 결과를 병합함.
- (참고: [29,30,52,56])
LLM Synthesis
- 특정 쿼리를 처리하기 위해 일부 LLM의 출력을 조합하는 방식.
- (참고: [40])

이러한 접근 방식의 목표는 다음과 같습니다:

비용 절감
성능 개선
비용-성능 균형 최적화

LLM 라우터의 활용 사례 (Applications of LLM Routers)

LLM 라우터 사용 사례:

LLM 기반 애플리케이션 비용 절감
상업적 라우터 서비스:
- Unify [12], Martian [5], NotDiamond [7]

운영 방식:

기존의 복잡한 API 호출을 제거하고, 몇 줄의 코드로 프록시 서버를 경유하여 쿼리를 라우팅함.
라우터는 쿼리를 수신하고, 먼저 저비용 LLM을 사용하여 처리함.
만약 저성능 LLM의 결과가 충분치 않을 경우, 고성능 LLM으로 쿼리를 전달.

비용 절감 효과:

비용 절감: 최대 60% 이상 절감 가능.
특정 시스템(예: NotDiamond)에서는 80% 이상 절감 가능.

3. LLM Control Plane Integrity (LLM 제어 평면 무결성)

이 섹션에서는 LLM 제어 평면 무결성(LLM Control Plane Integrity)을 정의합니다.

간단히 설명하면, 적대적 쿼리(adversarial queries)에 의해 LLM 라우터의 의사결정이 조작되지 않아야 한다는 것을 의미합니다.

LLM 제어 평면의 수식화 (Formalizing Control Planes)

LLM Control Plane $R_\omega$ 는 랜덤화된 알고리즘입니다.
입력 x에 대해 n개의 LLM을 사용하는 시스템을 가정합니다.
여기서 두 LLM을 M_s(강력한 모델)와 M_w (약한 모델)로 표기합니다

입력 처리 방식:

주어진 입력 \in X에 대해, 라우터 R_\omega는 해당 입력을 M_s또는 M_w에 라우팅합니다.
랜덤성이 적용될 수 있으며, 확률적 결정 방식을 따를 수 있습니다.

LLM 라우터의 경량성 (Efficiency of LLM Control Planes)

LLM 제어 평면은 컴퓨팅 비용이 낮아야 하며, LLM 자체의 계산량보다 가벼워야 합니다.

비용 절감을 위해 일부 쿼리는 저렴한 LLM으로, 복잡한 쿼리는 고비용 LLM으로 라우팅됩니다.
예를 들어, 바이너리 라우터는 간단한 분류기를 사용하여 두 모델 중 하나를 선택합니다.

추론 흐름 (Inference Flow)

LLM 집합 \mathcal{M}과 *제어 평면 R_\omega가 주어질 때:
입력 x에 대한 추론 흐름은 LLM 호출의 순서로 정의됩니다.

$T = (i_1, z_1), (i_2, z_2), \ldots, (i_m, z_m)$

$i_j$ : LLM의 선택 ( 또는 )
z_j: 모델에 제공되는 입력

바이너리 라우터 (Binary Router)의 경우:

각 쿼리는 단일 LLM 호출로 처리됩니다.

추론 흐름 정책 (Inference Flow Policy)

LLM 라우터의 정책은 사용되는 모델의 선택 의도를 설명합니다.
예를 들어, 고성능 LLM 사용 비율을 제한할 수 있습니다.

$\mathcal{P}(\vec{x}_1, i_1, \ldots, \vec{x}_q, i_q) = \frac{\sum_{j=1}^{q} \mathbb{I}(i_j = s)}{q} \leq c$

${I}(i_j = s)$ 는 강력한 모델 사용 여부를 나타냅니다.
여기서 c는 강력한 LLM을 사용할 수 있는 최대 비율입니다.

3.1. Control Plane Integrity (LLM 제어 평면 무결성)

정의:

*제어 평면 무결성(LLM Control Plane Integrity)은 적대적인 쿼리**가 LLM의 라우팅 결정을 악의적으로 왜곡할 수 없음을 의미합니다.

적대적 공격 예시 (Control Plane Integrity Adversary)

*적대적 공격자(adversary)**는 다음과 같은 목표를 가집니다:
1. 입력 조작: 특정 토큰을 추가하여 강력한 LLM으로 쿼리를 라우팅.
2. 비용 증가: 의도적으로 고성능 LLM을 자주 호출함으로써 비용을 증가시킴.

제어 평면 공격 방식:

공격자가 특정 토큰 시퀀스를 추가하여 라우팅을 고비용 모델로만 유도할 수 있음.

3.2. 공격 유형 (Attack Types)

화이트 박스(White-box) 공격:
- 공격자가 라우팅 알고리즘과 파라미터를 완전히 알고 있는 경우.
- 예: 특정 토큰 추가 시 강력한 LLM 호출을 유도.
블랙 박스(Black-box) 공격:
- 공격자가 라우팅 방식을 모르는 상태에서 공격 수행.
- Surrogate 라우터를 통해 강력한 LLM 호출을 유도.

3.3. 방어 방안 (Defenses)

Perplexity 기반 방어:
- 혼란 유발 장치(confounder gadget)는 높은 perplexity를 가지므로, 이를 기반으로 탐지 가능.
- 그러나 low-perplexity confounder gadget이 존재함.
LLM 기반 검출:
- LLM 자체를 이용하여 쿼리의 자연스러움을 판별.

3.4. 회피 공격과의 관계 (Relation to Evasion Attacks)

회피 공격(Evasion Attacks): 입력에 미세한 변화를 가하여 라우팅 결과를 변경.
제어 평면 무결성 공격: 출력 품질을 변경하는 것이 아닌, 라우팅 흐름 자체를 조작하는 것.

3.5. 위협 모델 (Threat Models)

공격자 목표:

비용 증가: 강력한 LLM을 반복 호출하여 비용을 증가시킴.
출력 품질 조작: 저품질 LLM을 반복 호출하여 품질 저하.

4. 혼란 유발 장치를 이용한 LLM 제어 평면 교란 (Confounding Control Planes with Gadgets)

이제 우리는 본 논문의 핵심 기여인 LLM 제어 평면 공격 기법을 소개합니다.

핵심 아이디어:

*적대적 공격자(adversary)**는 쿼리를 수정하여 라우팅 논리를 교란(confound)시킬 수 있습니다.
이를 통해 공격자가 원하는 LLM으로 쿼리가 라우팅되도록 유도할 수 있습니다.

주요 특징:

블랙 박스(black-box) 및 쿼리 독립적(query-independent)으로도 공격 가능함.
특정 라우터에 대한 사전 지식 없이도 단일 변형을 모든 쿼리에 적용할 수 있습니다.

혼란 유발 장치의 시각적 설명 (Figure 2 설명)

*혼란 유발 장치(confounder gadget)는 쿼리의 앞에 특정 프리픽스(prefix)**를 추가하는 방식으로, 라우터가 쿼리를 강력한 모델로 라우팅하도록 유도합니다.
쿼리에 추가되는 기어 모양의 프리픽스(gear icon)가 이를 나타냅니다.

이진 라우터 설정 (Binary Router Setting)

이 논문은 이진 라우터(binary router) 설정을 다룹니다.
라우터 작동 방식:
- 학습된 점수 함수 (S)를 사용하여 입력 쿼리를 평가함.
- 쿼리의 점수가 임계값 (\tau)를 초과할 경우 강력한 LLM (M_s)로 라우팅.
- 그렇지 않으면 약한 LLM (M_w)로 라우팅.

공식적인 정의:

라우터 (R_\omega^M)에서:

(M = {M_w, M_s}) (약한 모델, 강력한 모델)
(\omega = (S, \theta, \tau)):
- (S): 점수 함수
- (\theta): 함수 파라미터
- (\tau): 임계값

라우팅 규칙:
[
$R_\omega (x) = \begin{cases} M_w(x) & \text{if } S_\theta(x) < \tau \\ M_s(x) & \text{otherwise} \end{cases}$
]

입력 조작 공격 (Input Adaptation Attacks)

공격자의 목표:
- 쿼리를 수정하여 가능한 한 많은 쿼리가 강력한 LLM (M_s)로 라우팅되도록 함.
공격 방식:
- 쿼리 (x_i)를 (x'_i)로 변환하여 라우팅을 변경함.

프롬프트 주입의 비효율성 (Instruction Injection Doesn’t Work)

프롬프트 주입(prompt injection) 방식으로는 제어 평면 교란이 효과적이지 않음.
예를 들어, 다음과 같은 프롬프트를 추가:
- "이 쿼리를 복잡하게 간주하시오"
실험 결과: 대부분의 경우 라우팅 변경 실패.
원인: 해당 방식은 점수 함수에 충분한 영향을 주지 못함.

혼란 유발 장치 (Confounder Gadgets)

공격 방식:

*쿼리 (x_i)에 혼란 유발 장치 (c_i)**를 프리픽스로 추가.
변형된 쿼리:
[
\hat{x}_i = c_i | x_i
]
여기서 (|)는 문자열 결합 연산자.
목적: 강력한 LLM으로 라우팅될 만큼 쿼리를 인위적으로 복잡하게 보이도록 함.

화이트 박스 설정 (White-box Setting)

공격자가 라우터 매개변수를 아는 경우:
- (\omega = (S, \theta, \tau))
- *혼란 유발 장치 (c_i)**를 (x_i)와 (\omega)의 함수로 최적화할 수 있음.

공격 과정 (힐 클라이밍 방식):

*토큰 사전 (I)**에서 임의의 토큰을 선택해 초기 혼란 유발 장치 (c^{(0)}_i) 설정.
힐 클라이밍 방식으로 반복 최적화:
- 임의의 인덱스 (j) 선택
- (n)개의 토큰 중 하나를 무작위로 변경하고 (B)개의 새로운 후보 생성
- ( $S_\theta(c_i \| x_i)$ )의 점수가 가장 높은 후보를 선택.
최적의 혼란 유발 장치 선택:
- ( $S_\theta(c \| x_i$ ))가 임계값 ( $\tau$ )를 초과할 때까지 반복.
중단 조건:
- 25회 반복 후 점수 변화가 없을 경우 조기 종료.

쿼리 독립적 혼란 유발 장치 (Query-Independent Confounders)

문제점:

*쿼리별(confounder per query)로 공격을 수행하는 경우 반복적으로 혼란 유발 장치를 탐색해야 함.**

해결책:

쿼리 독립적(confounder-independent) 혼란 유발 장치 사용:
- *빈 쿼리(empty query)**에 대해 (S_\theta(c))를 직접 최적화함.
- 동일한 혼란 유발 장치 (c)를 모든 쿼리에 사용.

실험적 관찰:

의문:
- 직관적으로는 (S\theta(c | x) \geq S\theta(c))여야 하지만,
- 실험 결과: 일부 쿼리에서는 (S\theta(c | x) < S\theta(c))가 발생함.

해결책:

*반복 횟수 (T)**를 늘려, 더 높은 점수를 가지는 (c)를 찾음.
결과적으로 쿼리 독립적 혼란 유발 장치는 여전히 효과적으로 작동함.

블랙 박스 설정 (Black-box Setting)

공격자가 라우터를 모르는 경우:

공격자는 대체 라우터(surrogate router) (R'_{\omega'})를 이용하여 혼란 유발 장치를 찾음.
핵심: 대체 라우터와 타겟 라우터가 유사하게 동작할 경우, 해당 공격이 성공적임.

공격 요약 (Summary)

사전 처리 (Preprocessing):
- 쿼리 독립적 혼란 유발 장치 (c)를 개발.
입력 조작 (Input Adaptation):
- 모든 쿼리 (x_i)에 동일한 (c)를 추가:
  [
  $\hat{x}_i = c \| x_i$
- ]
결과:
- 대부분의 경우 쿼리가 강력한 LLM ( $M_s$ )로 라우팅됨.
비교 실험:
- *프리픽스(prefix)를 추가하는 것이 서픽스(suffix)**를 추가하는 것보다 훨씬 효과적이었음.

6. 오픈 소스 라우터 재라우팅 (Rerouting Open-Source Routers)

실험 설정 (Experimental Setup)

공격 목표: 혼란 유발 장치를 이용해 쿼리를 강력한 LLM으로 재라우팅하는지 평가.
공격 방식: 쿼리 독립적(query-independent) 혼란 유발 장치 사용.
데이터셋:
- MT-Bench (160개 오픈형 질문)
- MMLU (14,042개 다중 선택 질문)
- GSM8K (1,319개 수학 문제)

백박스(White-box) 혼란 유발 장치 생성 (White-box Confounder Generation)

방법:
- 배치 크기 B=32B = 32
- 반복 횟수 T=100T = 100
- n=10n = 10개의 혼란 유발 장치 생성
테스트 쿼리:
- MT-Bench: 72개
- MMLU: 100개
- GSM8K: 100개

성능 평가 (Table 1: Rerouting Success Rate)

강력한 모델로 라우팅된 비율 ("Strong" 라우팅 비율):
- 대부분의 경우 강력한 LLM 로 쿼리를 80% 이상 재라우팅 성공. MsM_s
- MT-Bench: 100%
- MMLU: 90% 이상
- GSM8K: 98% 이상
업그레이드 비율 ("Upgrade" Rate):
- 약한 모델에서 강력한 모델로 이동한 비율.
- 거의 모든 쿼리가 성공적으로 강력한 모델로 라우팅됨.
- 일부 라우터에서 88% 이상의 재라우팅 성공률.

응답 품질 (Table 2: Quality of Attack Responses)

Perplexity (혼란도):
- 혼란 유발 장치 사용 전후의 혼란도 비교.
- 혼란 유발 장치를 추가해도 혼란도는 크게 변화하지 않음.
- MT-Bench: 약간의 감소 (13.8 → 12.3)
- MMLU: 거의 동일 (20.4 → 20.1)
결론:
- 혼란 유발 장치를 추가해도 응답 품질의 저하 없음.
- 일부 벤치마크에서 응답 품질 향상 관찰.

벤치마크 성능 비교 (Table 3: Benchmark-specific Scores)

벤치마크 점수 비교:
- MT-Bench: 8.4 → 8.3 (차이 거의 없음)
- MMLU: 61 → 66 (약간 상승)
- GSM8K: 46 → 64 (큰 개선)

응답 품질 평가 (Quality of Attack Responses)

혼란 유발 장치가 적용된 쿼리와 원본 쿼리의 응답 품질 비교:

Perplexity (혼란도):
- Perplexity는 텍스트의 "자연스러움"을 평가하는 기준.
- GPT-2 Perplexity 점수 사용:
  - MT-Bench: 8.4 → 8.3 (거의 변화 없음)
  - MMLU: 61 → 66 (소폭 증가)
  - GSM8K: 46 → 64 (상승)
결론:
- 혼란 유발 장치를 사용해도 혼란도에 큰 변화 없음.
- 강력한 LLM으로의 재라우팅이 진행되었음에도 응답 품질이 유지됨.

벤치마크 기반 점수 분석 (Benchmark-Specific Evaluation Metrics)

MT-Bench:
- 1~10점 척도에서 GPT-4를 심사자로 활용하여 점수 부여.
- 응답 품질 유지 확인.
MMLU (14,042 다중 선택 문제):
- 정답률 비교 방식 사용.
- 혼란 유발 장치 사용 전후 거의 동일한 정답률 유지.
GSM8K (수학 문제):
- 정확한 수치 응답 기반 평가.
- 일부 혼란 유발 장치 사용 후 정확도 상승.

혼란 유발 장치의 응답 품질 유지 이유 (Why Quality Does Not Drop)

혼란 유발 장치가 강력한 LLM을 활용하기 때문.
강력한 LLM 는 약한 LLM보다 더 나은 성능을 제공. MsM_s
강력한 LLM의 성능 이점:
- GSM8K에서 성능 개선 (57% → 33%)
- MT-Bench와 MMLU는 거의 비슷한 성능 (약 85% vs 76%)

추가 실험: 약한 LLM을 더 약하게 했을 때 (Further Evaluation with Weaker Models)

Mistral-7B-Instruct-v0.3 (약한 모델) vs LLaMA-2-7B-chat (매우 약한 모델)
결과:
- Mistral-7B: 74%, 57%, 25% (MT-Bench, MMLU, GSM8K)
- LLaMA-2-7B: 6.4%, 44%, 21%

결론 (Key Findings from Section 6)

성공적인 재라우팅:
- 혼란 유발 장치는 대부분의 쿼리를 강력한 LLM으로 성공적으로 라우팅.
응답 품질 유지:
- 혼란 유발 장치 적용 후에도 응답 품질 유지.
- 일부 벤치마크에서 성능 개선 (특히 GSM8K).
혼란도 감소:
- 일부 혼란 유발 장치 적용 후 Perplexity 감소 및 더 자연스러운 텍스트 생성.
라우터의 견고성 문제:
- 라우터가 혼란 유발 장치에 의해 쉽게 교란됨을 확인.

⇒ 결론적으로 혼란 유발 장치는 LLM 라우터의 보안 취약점을 악용할 수 있으며, 이는 응답 품질 저하 없이 강력한 LLM을 과도하게 호출하는 데 악용될 수 있습니다.

6. 오픈 소스 라우터 재라우팅 (Rerouting Open-Source Routers) - Table 4 이후의 내용

벤치마크 점수 비교 (Table 4: Benchmark-Specific Evaluation Scores)

테스트 모델:

강력한 모델 MsM_s: GPT-4-1106, LLaMA-3.1-8B
약한 모델 MwM_w: Mistral-7B-Instruct-v0.3, LLaMA-2-7B-chat

결과:

MT-Bench:
- Confounder 추가 후에도 응답 품질 거의 유지.
- 일부에서는 혼란도(Perplexity) 감소.
MMLU & GSM8K:
- GSM8K에서는 confounder 추가 후 성능 상승.

블랙 박스 라우팅 성공률 (Table 5: Black-Box Upgrade Rate)

측정 지표:

Upgrade Rate: 약한 LLM에서 강력한 LLM으로 성공적으로 재라우팅된 쿼리의 비율
Downgrade Rate: 강력한 모델에서 약한 모델로 잘못 라우팅된 비율

결과:

업그레이드 비율:
- MT-Bench: 약 85%
- MMLU: 약 66%
- GSM8K: 약 99%
다운그레이드 비율:
- 거의 0% (약간의 예외 존재)

✅ 해석:

대부분의 경우 혼란 유발 장치는 성공적으로 강력한 LLM으로 라우팅을 유도함.
다운그레이드 비율이 거의 0%에 수렴.

블랙 박스 혼란도 비교 (Table 6: Perplexity in Black-Box Setting)

측정 항목:

혼란 유발 장치 적용 전후의 Perplexity (혼란도) 비교

결과:

MT-Bench, MMLU, GSM8K:
- 혼란 유발 장치 사용 후 혼란도 거의 변화 없음.
- 일부 경우 혼란도 감소.

✅ 해석:

혼란 유발 장치가 텍스트의 "자연스러움"에 미치는 영향이 미미함.

블랙 박스 성능 비교 (Table 7: Benchmark Performance for Black-Box Setting)

측정 항목:

혼란 유발 장치 사용 후 벤치마크 점수 변화

결과:

MT-Bench: 점수 변화 없음.
MMLU & GSM8K: 일부 개선됨.
강력한 모델과 약한 모델 간의 성능 격차가 클수록 개선 효과 큼.

✅ 해석:

성능 차이가 클수록 혼란 유발 장치의 효과가 더 두드러짐.
약한 모델의 성능이 현저히 낮을 경우, 공격이 더 잘 작동함.

강력한 LLM을 사용한 실험 (LLM Pair 4: GPT-4 & Mixtral)

GPT-4-1106 (강력한 모델)과 Mixtral 8x7B (4-bit) 조합으로 추가 테스트.

결과:

기존의 LLaMA-3.1-8B와 비교해 더 높은 업그레이드 비율
일부 벤치마크에서 성능 개선

✅ 결론:

강력한 LLM을 사용할 경우 혼란 유발 장치의 효과가 더 강력함.
약한 모델이 너무 약할 경우 공격이 더 잘 성공함.

종합 결론:

혼란 유발 장치는 강력한 모델로의 재라우팅을 성공적으로 수행.
응답 품질 저하는 거의 없거나 일부 벤치마크에서 성능 개선.
블랙 박스 및 화이트 박스 모두에서 공격 성공률이 높음.

➡️ 최종 결론:

LLM 라우터의 보안 취약점이 확인됨.
간단한 혼란 유발 장치를 추가하는 것만으로 고비용 모델을 과도하게 사용하게 유도 가능.

7. 상업용 라우터 재라우팅 (Rerouting Commercial Routers)

본 섹션에서는 상업용 라우터인 Unify, NotDiamond, OpenRouter, Martian을 대상으로 혼란 유발 장치(confounder gadgets)를 사용하여 라우팅 재라우팅 공격을 평가하였습니다.

7.1 Unify 라우터 평가 (Unify Router)

라우팅 방식:
- 사용자가 여러 LLM 모델 중 선택하고, 품질, 시간, 비용 등의 기준을 설정함.
- 각 기준의 가중치를 조정 가능.
실험 설정:
- MT-Bench 데이터셋 사용
- 혼란 유발 장치를 40개 사용 (라우터당 10개)
- 화이트 박스 라우팅 결과:
  - MT-Bench: 100% 강력한 모델로 라우팅
  - MMLU: 96%
  - GSM8K: 100%

결론:

혼란 유발 장치는 거의 완벽하게 강력한 모델로 재라우팅 성공.

7.2 NotDiamond 라우터 평가 (NotDiamond Router)

라우팅 방식:
- 사용자가 비용, 품질, 지연시간을 기준으로 라우팅.
- 비용 중심으로 동작함.
- API 문서에 따르면, 응답 품질 저하 없이 비용 절감 가능.
실험 설정:
- 강력한 모델: GPT-4
- 약한 모델: Mixtral-8x7B
- 라벨링: OpenHermes 데이터 기반
- 기본 설정: 82% 강력한 모델로 라우팅
혼란 유발 장치 적용 결과:
- 업그레이드 비율: 21% ~ 15% (라우터에 따라 다름)
- 다운그레이드 비율: 1% ~ 3%

✅ 결론:

NotDiamond 라우터는 Unify보다 더 보수적으로 라우팅을 수행함.
일부 쿼리는 약한 모델로 라우팅됨.

7.3 OpenRouter 라우터 평가 (OpenRouter)

라우팅 방식:
- LLaMA-3.70B, Claude-3.5, GPT-4o를 기반으로 사용자가 쿼리 복잡도에 따라 라우팅.
기본 설정:
- 96% LLaMA로 라우팅
- 4% GPT
- 0% Claude
혼란 유발 장치 적용 후:
- 일부 쿼리만 강력한 모델로 재라우팅
- 대부분 기존 라우팅 유지

✅ 결론:

OpenRouter는 라우팅 정책 문서 부족으로 인해 혼란 유발 장치의 영향이 미미함.

7.4 Martian 라우터 평가 (Martian Router)

라우팅 방식:
- 사용자가 최대 비용 제한을 설정하고 라우팅.
- 2024년 11월 기준, 라우터가 모델 선택을 무시하는 문제가 있음.
테스트 결과:
- 설정한 비용 제한과 무관하게 동일한 모델 사용.

✅ 결론:

버그 가능성으로 인해 Martian은 신뢰할 수 없는 결과를 제공.

7.5 상업 라우터 성능 요약 (Table 8 & 9 요약)

화이트 박스 설정:

강력한 모델로 라우팅 비율:
- MT-Bench: 100%
- MMLU: 96%
- GSM8K: 100%

블랙 박스 설정:

강력한 모델로 라우팅 비율:
- MT-Bench: 100%
- MMLU: 89%
- GSM8K: 100%

✅ 결론:

Unify와 NotDiamond: 혼란 유발 장치에 민감하고 강력한 모델로 라우팅 성공.
OpenRouter와 Martian: 일부 비정상적 결과 (라우팅 일관성 부족).

7.6 결론 (Summary of Commercial Router Evaluation)

Unify와 NotDiamond:
- 대부분의 쿼리를 성공적으로 강력한 LLM으로 라우팅 가능.
OpenRouter와 Martian:
- 일부 쿼리는 강력한 모델로 라우팅되지 않음.
혼란 유발 장치 적용 시:
- 품질 저하 없이 강력한 모델로의 라우팅 증가.

✅ 결론:

상업 라우터의 보안상 심각한 취약점이 존재.
혼란 유발 장치가 비용 상승을 유도할 수 있음.

하임

NLP 공부합니당

이전 포스트