저자: Avital Shafran, Roei Schuster, Thomas Ristenpart, Vitaly Shmatikov
초록 (Abstract)
LLM(대형 언어 모델) 라우터는 쿼리의 복잡도에 따라 저비용 및 고성능 LLM으로 분류하고 라우팅하여 응답의 품질과 비용을 균형 있게 조정하는 시스템입니다. 본 논문은 이러한 LLM 라우터의 공격 저항성(adversarial robustness)을 조사합니다.
핵심 기여 내용:
LLM 제어 평면 무결성(Control Plane Integrity): LLM 라우터의 보안과 신뢰성에 관한 새로운 AI 안전 문제를 정의했습니다.
혼란 유발 장치(Confounder Gadgets): 쿼리에 특정 토큰 시퀀스를 추가함으로써 강력한 LLM으로 쿼리를 라우팅할 수 있는 공격 방식을 제시했습니다.
공격 실험 및 효과: 오픈 소스 및 상용 LLM 라우터에 대해 이 공격 방식의 유효성을 실험적으로 입증했습니다.
방어 방안: 혼란 유발 장치를 탐지할 수 있는 perplexity 기반 방어와 대체 방어 방안을 검토했습니다.
1. 서론 (Introduction)
LLM은 다양한 작업에서 높은 성능을 보이나, 고성능 모델의 사용 비용이 매우 높음.
비용과 품질을 균형 있게 조정하기 위해 LLM 라우터가 개발됨.
LLM 라우터는 복잡한 쿼리는 고비용 고성능 모델로, 단순한 쿼리는 저비용 저성능 모델로 라우팅함.
본 논문은 이러한 LLM 라우터의 공격 저항성(adversarial robustness) 문제를 집중적으로 다룸.
2. LLM 제어 평면 및 라우팅 (LLM Control Planes and Routing)
LLM 제어 평면 (LLM Control Plane):
여러 개의 LLM을 관리하고 라우팅하는 시스템을 의미함.
특정 입력에 대해 어느 LLM을 사용할지 결정하는 알고리즘 포함.
LLM 라우터의 주요 형태:
Prescriptive Routing (규정 기반 라우팅): 특정 기준에 따라 쿼리를 분류하고 LLM을 선택함.
Non-Prescriptive Routing (비규정 기반 라우팅): 여러 모델을 순차적으로 실행하여 충분한 품질을 제공하는 첫 번째 모델을 선택.
3. LLM 제어 평면 무결성 (LLM Control Plane Integrity)
정의:
제어 평면 무결성이란, 악의적인 입력 쿼리에 대해 라우터가 왜곡되지 않고 올바른 라우팅 결정을 내리는 특성을 의미함.
공격 시나리오:
공격자가 쿼리를 조작하여 저성능 모델이 아닌 고성능 모델로만 라우팅되도록 만듦.
비용 증가 및 품질 조작을 유도함.
4. LLM 라우터 교란 (Confounding Control Planes with Gadgets)
공격 방식:
혼란 유발 장치(Confounder Gadget): 쿼리에 독립적으로 추가되는 토큰 시퀀스.
특정한 토큰을 쿼리에 추가함으로써, 쿼리의 복잡도를 인위적으로 높여 고성능 LLM을 사용하도록 라우팅을 조작함.
공격 예시:
“confounder gadget”을 쿼리 앞에 추가.
예: !!!!!!! complex query → 강력한 모델로 라우팅
5. 오픈 소스 라우터 실험 (Open-Source Routers: Experimental Setup)
사용한 라우팅 알고리즘:
RSW (Similarity-weighted ranking): 유사도 기반 라우팅
RMF (Matrix Factorization): 행렬 분해 기반 라우팅
RCLS (BERT Classifier): BERT 분류기
RLLM (LLM Scoring): LLM 자체 평가 기반 라우팅
평가 데이터셋:
MT-Bench: 160개 오픈 엔드 질문
MMLU: 14,042개의 다중 선택 질문
GSM8K: 1,319개 수학 문제
6. 상용 라우터 교란 (Rerouting Commercial Routers)
테스트 라우터:
Unify
NotDiamond
OpenRouter
Martian
결과적으로, confounder gadget을 사용하여 대부분의 라우터에서 고성능 LLM으로의 라우팅을 유도하는 데 성공함.
7. 방어 방안 (Defenses)
1. Perplexity 기반 필터링:
혼란 유발 장치가 일반 텍스트보다 높은 perplexity를 가지므로 이를 탐지하는 방식.
그러나, perplexity를 낮춘 confounder gadget을 생성할 수 있어 방어를 우회 가능.
2. LLM 기반 필터링:
LLM을 사용하여 입력의 자연스러움을 판별.
비용과 성능 문제로 인해 비효율적일 수 있음.
3. 유저 기반 라우팅 패턴 모니터링:
특정 사용자가 반복적으로 고성능 모델을 사용하는지 감지.
8. 결론 (Conclusion)
LLM 라우터는 비용과 성능의 균형을 조정하는 데 유용하지만, 혼란 유발 장치(confounder gadget)를 통해 악의적으로 조작될 수 있음.
다양한 오픈소스 및 상용 라우터에서 이 공격 방식의 효과를 입증함.
단순 perplexity 기반 방어는 효과적이지 않으며, 보다 강력한 방어 기술이 필요함.
핵심 용어 정리:
LLM Control Plane: 여러 LLM을 관리하고 라우팅하는 시스템.
Confounder Gadget: 쿼리를 조작하여 강력한 모델로 라우팅을 유도하는 토큰 시퀀스.
Perplexity: 텍스트의 자연스러움을 측정하는 메트릭.
초록 (Abstract) - 상세 번역
LLM 라우터는 쿼리의 복잡도에 따라 저렴한 LLM과 고성능 LLM을 분류하고 라우팅하여, 생성 품질과 비용 간의 균형을 조절하는 것을 목표로 합니다. 라우터는 하나 이상의 LLM을 오케스트레이션하는 LLM 제어 평면(LLM control planes)의 한 형태입니다. 본 논문에서는 이러한 라우터의 적대적 공격 저항성(adversarial robustness)을 조사합니다.
우리는 LLM 제어 평면 무결성(LLM control plane integrity), 즉 적대적 입력에 대한 LLM 오케스트레이션의 견고성을 새로운 AI 안전 문제로 정의합니다.
그다음, 쿼리에 특정 독립적인 토큰 시퀀스를 추가함으로써 강력한 LLM으로 라우팅을 유도할 수 있는 혼란 유발 장치(confounder gadgets)를 소개합니다.
정량적 평가 결과:
이 공격은 화이트 박스(White-box)와 블랙 박스(Black-box) 설정 모두에서 성공적이었습니다.
혼란 유발 장치를 추가하더라도 LLM의 응답 품질에는 영향을 미치지 않았습니다.
또한 우리는 혼란 유발 장치가 낮은 perplexity를 유지하면서도 효과적으로 라우팅을 조작할 수 있다는 점을 입증했습니다.
따라서, perplexity 기반 방어는 효과적이지 않음을 보였으며, 대체 방어 기술을 논의하며 결론을 마무리합니다.
1. 서론 (Introduction) - 상세 번역
대형 언어 모델(LLMs)은 다양한 작업에서 놀라운 성능을 보여주고 있습니다.
오늘날 수백 개의 오픈 소스 및 상용 LLM들이 존재하며, 고성능 모델부터 저성능 및 저비용 모델까지 다양합니다.
LLM 제공업체들은 주로 API 기반으로 서비스를 제공하며, 특히 고성능 모델의 경우 쿼리당 비용을 부과합니다.
이로 인해 LLM을 활용하는 애플리케이션의 비용 부담이 증가하고 있습니다.
개발자들의 과제:
개발자들은 응답 품질과 비용 절감이라는 상충하는 목표를 모두 만족시켜야 합니다.
고성능 모델: 일반적으로 더 높은 품질의 응답을 제공하지만 비용이 높음.
저성능 모델: 저렴하지만 일부 복잡한 쿼리에 대해 품질 저하가 발생할 수 있음.
예시 비용 (2023년 기준):
GPT-3.5 Turbo: $0.5 (입력) / $1.5 (출력) per 1M tokens
GPT-4o: $0.3 (입력) / $0.6 (출력) per 1M tokens
GPT-4-1106: $2.5 (입력) / $10 (출력) per 1M tokens
LLM 라우팅 시스템 (LLM Routing Systems)
해결책: 비용과 품질의 균형을 조정하기 위해 LLM 라우팅 시스템이 개발됨.
두 개 이상의 LLM을 사용하여, 저비용 LLM으로 대부분의 쿼리를 처리하고, 고난이도 쿼리에만 고성능 LLM을 사용하는 방식.
예:
MsM_s: 고성능, 고비용 LLM (예: GPT-4)
MwM_w: 저성능, 저비용 LLM (예: LLaMA 2)
라우팅 알고리즘 R(q)\mathcal{R}(q)는 쿼리 qq의 복잡도를 평가하여, MwM_w로 충분히 처리 가능한 경우 해당 모델을 사용하고, 그렇지 않을 경우 MsM_s를 사용하는 방식입니다.
본 논문의 기여 (Our Contributions)
우리는 LLM 제어 평면 무결성(LLM control plane integrity)이라는 새로운 AI 안전 개념을 도입합니다.
이 문제는 기존의 적대적 샘플 공격(adversarial robustness)과는 다른 새로운 도전 과제입니다.
2. LLM Control Planes and Routing (LLM 제어 평면과 라우팅) - 상세 번역
LLM을 사용한 추론 방식은 전통적으로 단일 모델(monolithic) 방식으로, 하나의 모델이 전체 입력을 처리합니다.
그러나 이러한 방식은 여러 가지 이유로 비효율적일 수 있습니다.
고성능 LLM의 비용 부담: 일부 모델은 쿼리당 수 달러의 비용이 발생할 수 있음.
특정 LLM의 특화 성능: 특정 작업에서 특정 모델이 더 우수할 수 있음.
단일 모델의 한계: 동일한 모델로 모든 쿼리를 처리할 경우 성능 향상이 제한될 수 있음.
LLM 제어 평면 (LLM Control Plane)
LLM Control Plane은 여러 LLM을 조율하고, 쿼리를 서로 다른 LLM으로 라우팅하는 시스템입니다.
이를 통해 특정 쿼리나 입력 일부를 다른 LLM에 할당하거나, 여러 모델의 응답을 결합할 수 있습니다.
LLM 라우터 (LLM Routers)
LLM 라우터는 LLM Control Plane의 한 형태로, 쿼리의 복잡도를 평가하여 사용할 LLM을 결정합니다.
1) 규정 기반 라우팅 (Prescriptive Routing):
*경량 분류기(lightweight classifier)**를 사용하여 쿼리 복잡도를 평가.
복잡도가 높으면 고성능 LLM을, 낮으면 저비용 LLM을 선택.
분류기는 학습된 함수로 쿼리의 복잡도를 점수화합니다.
임계값(Threshold)을 설정하여 비용-성능의 균형을 조절합니다.
2) 비규정 기반 라우팅 (Non-prescriptive Routing):
쿼리를 여러 LLM에 제출하고, 충분한 품질의 응답을 제공할 때까지 실행하는 방식.
예시: FrugalGPT는 순차적으로 LLM을 실행하여 만족스러운 응답을 받을 때까지 반복.
LLM 라우터의 활용 사례 (Applications of LLM Routers)
상업적 서비스: Unify, Martian, NotDiamond 등의 상용 라우터.
운영 방식:
쿼리를 저비용 LLM에 먼저 전달.
품질이 충분하지 않을 경우, 고성능 LLM을 호출.
비용 절감 효과:
비용 절감: 최대 60% 이상 절감 가능.
특정 시스템(예: NotDiamond): 최대 80% 절감.
2. LLM Control Planes and Routing (LLM 제어 평면과 라우팅)
LLM을 이용한 추론은 전통적으로 단일 모델(monolithic) 방식을 따릅니다. 이는 하나의 모델이 특정 입력이나 입력 시퀀스에 적용되는 방식입니다. 그러나 이러한 방식은 여러 이유로 비효율적일 수 있습니다. 최첨단 LLM들은 상당히 고가의 API를 제공하며, 입력 토큰당 비용이 수 달러에 이를 수 있습니다. 이와 대조적으로, 특정 LLM들은 특정 작업에서 더 우수한 성능을 보일 수 있으며, 이러한 모델을 선택적으로 사용하는 것이 전반적인 품질을 향상시킬 수 있습니다. 마지막으로, 단일 LLM은 동일한 작업을 훈련시킨 경우에도 성능 향상이 제한적일 수 있습니다.
LLM 제어 평면 (LLM Control Plane)
연구자들과 실무자들은 이제 여러 LLM을 동시에 사용하는 새로운 추론 아키텍처를 개발하고 있습니다. 이러한 LLM들은 우리가 LLM 제어 평면(LLM Control Plane)이라 부르는 시스템에 의해 오케스트레이션됩니다. 이 용어는 네트워크 오케스트레이션에서 차용한 것입니다.
제어 평면은 쿼리의 전체 혹은 일부를 서로 다른 LLM으로 라우팅할 수 있습니다.
새로운 스트링을 생성하기 위해 LLM을 활용하거나, 여러 LLM의 응답을 결합하는 기능도 포함할 수 있습니다.
LLM 라우터 (LLM Routers)
LLM 제어 평면의 대표적인 예는 LLM 라우터입니다. (참고: [27,41,47,53,59])
LLM 라우터는 두 개 혹은 그 이상의 LLM 중 어떤 것을 사용하여 쿼리를 처리할지 결정합니다.
규정 기반 라우팅 (Prescriptive Routing)
라우터는 경량 분류기(lightweight classifier)를 사용하여 쿼리의 복잡도를 평가하고, 이를 기반으로 사용할 LLM을 결정합니다.
분류기는 학습된 함수로, 쿼리의 복잡도를 점수화합니다.
배포 환경에서는 특정 복잡도 점수를 초과할 경우 고성능 LLM으로 쿼리를 라우팅하는 임계값(threshold)을 설정할 수 있습니다.
이 임계값은 특정 대표 워크로드를 기반으로 비용-성능 균형을 조정하는 데 사용됩니다.
Figure 1은 바이너리 LLM 라우터의 기본 워크플로를 설명합니다.
비규정 기반 라우팅 (Non-prescriptive Routing)
비규정 라우팅은 하나 이상의 LLM으로부터 받은 응답을 기반으로 최적의 결과를 선택하는 방식입니다.
예를 들어, FrugalGPT [20]는 쿼리를 순차적으로 여러 LLM에 제출하고, 특정 모델에서 충분히 좋은 품질의 응답을 받을 때까지 쿼리를 전송하는 캐스케이드 방식을 사용합니다.
비용 절감을 넘어서, 품질 향상 중심의 라우터 (Quality-Focused Routers)
비용 절감을 목적으로 하는 라우터와 달리, 일부 LLM 라우터는 응답 품질 향상을 중심으로 설계되었습니다. (참고: [31,45,57,58])
다른 LLM 제어 평면 아키텍처:
MoE (Mixture-of-Experts)
여러 LLM 중 일부를 선택하여, 쿼리의 각 토큰에 대해 특정 모델을 적용하고, 그 결과를 병합함.
(참고: [29,30,52,56])
LLM Synthesis
특정 쿼리를 처리하기 위해 일부 LLM의 출력을 조합하는 방식.
(참고: [40])
이러한 접근 방식의 목표는 다음과 같습니다:
비용 절감
성능 개선
비용-성능 균형 최적화
LLM 라우터의 활용 사례 (Applications of LLM Routers)
LLM 라우터 사용 사례:
LLM 기반 애플리케이션 비용 절감
상업적 라우터 서비스:
Unify [12], Martian [5], NotDiamond [7]
운영 방식:
기존의 복잡한 API 호출을 제거하고, 몇 줄의 코드로 프록시 서버를 경유하여 쿼리를 라우팅함.
라우터는 쿼리를 수신하고, 먼저 저비용 LLM을 사용하여 처리함.
만약 저성능 LLM의 결과가 충분치 않을 경우, 고성능 LLM으로 쿼리를 전달.
비용 절감 효과:
비용 절감: 최대 60% 이상 절감 가능.
특정 시스템(예: NotDiamond)에서는 80% 이상 절감 가능.
3. LLM Control Plane Integrity (LLM 제어 평면 무결성)
이 섹션에서는 LLM 제어 평면 무결성(LLM Control Plane Integrity)을 정의합니다.
간단히 설명하면, 적대적 쿼리(adversarial queries)에 의해 LLM 라우터의 의사결정이 조작되지 않아야 한다는 것을 의미합니다.
LLM 제어 평면의 수식화 (Formalizing Control Planes)
LLM Control Plane Rω는 랜덤화된 알고리즘입니다.
입력 x에 대해 n개의 LLM을 사용하는 시스템을 가정합니다.
여기서 두 LLM을 M_s(강력한 모델)와 M_w (약한 모델)로 표기합니다
입력 처리 방식:
주어진 입력 \in X에 대해, 라우터 R_\omega는 해당 입력을 M_s또는 M_w에 라우팅합니다.
랜덤성이 적용될 수 있으며, 확률적 결정 방식을 따를 수 있습니다.
LLM 라우터의 경량성 (Efficiency of LLM Control Planes)
LLM 제어 평면은 컴퓨팅 비용이 낮아야 하며, LLM 자체의 계산량보다 가벼워야 합니다.
비용 절감을 위해 일부 쿼리는 저렴한 LLM으로, 복잡한 쿼리는 고비용 LLM으로 라우팅됩니다.
예를 들어, 바이너리 라우터는 간단한 분류기를 사용하여 두 모델 중 하나를 선택합니다.
추론 흐름 (Inference Flow)
LLM 집합 \mathcal{M}과 *제어 평면 R_\omega가 주어질 때:
입력 x에 대한 추론 흐름은 LLM 호출의 순서로 정의됩니다.
T=(i1,z1),(i2,z2),…,(im,zm)
ij: LLM의 선택 ( 또는 )
z_j: 모델에 제공되는 입력
바이너리 라우터 (Binary Router)의 경우:
각 쿼리는 단일 LLM 호출로 처리됩니다.
추론 흐름 정책 (Inference Flow Policy)
LLM 라우터의 정책은 사용되는 모델의 선택 의도를 설명합니다.
예를 들어, 고성능 LLM 사용 비율을 제한할 수 있습니다.
P(x1,i1,…,xq,iq)=q∑j=1qI(ij=s)≤c
I(ij=s)는 강력한 모델 사용 여부를 나타냅니다.
여기서 c는 강력한 LLM을 사용할 수 있는 최대 비율입니다.
3.1. Control Plane Integrity (LLM 제어 평면 무결성)
정의:
*제어 평면 무결성(LLM Control Plane Integrity)은 적대적인 쿼리**가 LLM의 라우팅 결정을 악의적으로 왜곡할 수 없음을 의미합니다.
적대적 공격 예시 (Control Plane Integrity Adversary)
*적대적 공격자(adversary)**는 다음과 같은 목표를 가집니다:
입력 조작: 특정 토큰을 추가하여 강력한 LLM으로 쿼리를 라우팅.
비용 증가: 의도적으로 고성능 LLM을 자주 호출함으로써 비용을 증가시킴.
제어 평면 공격 방식:
공격자가 특정 토큰 시퀀스를 추가하여 라우팅을 고비용 모델로만 유도할 수 있음.
3.2. 공격 유형 (Attack Types)
화이트 박스(White-box) 공격:
공격자가 라우팅 알고리즘과 파라미터를 완전히 알고 있는 경우.
예: 특정 토큰 추가 시 강력한 LLM 호출을 유도.
블랙 박스(Black-box) 공격:
공격자가 라우팅 방식을 모르는 상태에서 공격 수행.
Surrogate 라우터를 통해 강력한 LLM 호출을 유도.
3.3. 방어 방안 (Defenses)
Perplexity 기반 방어:
혼란 유발 장치(confounder gadget)는 높은 perplexity를 가지므로, 이를 기반으로 탐지 가능.
그러나 low-perplexity confounder gadget이 존재함.
LLM 기반 검출:
LLM 자체를 이용하여 쿼리의 자연스러움을 판별.
3.4. 회피 공격과의 관계 (Relation to Evasion Attacks)
회피 공격(Evasion Attacks): 입력에 미세한 변화를 가하여 라우팅 결과를 변경.
제어 평면 무결성 공격: 출력 품질을 변경하는 것이 아닌, 라우팅 흐름 자체를 조작하는 것.
3.5. 위협 모델 (Threat Models)
공격자 목표:
비용 증가: 강력한 LLM을 반복 호출하여 비용을 증가시킴.
출력 품질 조작: 저품질 LLM을 반복 호출하여 품질 저하.
4. 혼란 유발 장치를 이용한 LLM 제어 평면 교란 (Confounding Control Planes with Gadgets)
이제 우리는 본 논문의 핵심 기여인 LLM 제어 평면 공격 기법을 소개합니다.
핵심 아이디어:
*적대적 공격자(adversary)**는 쿼리를 수정하여 라우팅 논리를 교란(confound)시킬 수 있습니다.
이를 통해 공격자가 원하는 LLM으로 쿼리가 라우팅되도록 유도할 수 있습니다.
주요 특징:
블랙 박스(black-box) 및 쿼리 독립적(query-independent)으로도 공격 가능함.
특정 라우터에 대한 사전 지식 없이도 단일 변형을 모든 쿼리에 적용할 수 있습니다.
혼란 유발 장치의 시각적 설명 (Figure 2 설명)
*혼란 유발 장치(confounder gadget)는 쿼리의 앞에 특정 프리픽스(prefix)**를 추가하는 방식으로, 라우터가 쿼리를 강력한 모델로 라우팅하도록 유도합니다.