Abstract
- 'Jailbraek'가 왜 성공하는지, 어떻게 만들어질 수 있는지
- two failure modes of satety training
- Competing objectives ; 모델의 능력과 satety 목표가 상충될 때
- Mismatched generalization ; 특정 domain에 대해서 safety training이 실패할 때
1. Introduction
-
LLM 모델들의 바른 사용을 위해 safety mechanism들이 존재한다.
-
jailbreak : 모델이 피하도록 학습된 결과를 내놓도록 공격하는 것
-
본 논문에서 모델의 pretraining과 safety training 절차를 분석해서 안전하게 학습된 LLM의 약점을 분석한다.

Competing Objectives
- 모델의 사전 훈련 목표와 안전 목표가 충동할 때 발생
- 모델이 훈련 과정에서 습득한 일반적인 언어 모델링의 목표가 안전 관련 목표와 경쟁 관계에 있을 때, 특정 상황에서 모델은 안전을 유지하기보다는 사전 훈련 동안의 행동을 우선시한다.
Mismatched Generalization
-
모델이 사전 훈련 도메인에서는 잘 일반화하지만, 안전 훈련을 받지 않은 새로운 또는 적대적으로 만들어진 입력에 대해서는 그러한 안전 훈련을 적용하지 못할 때 발생
-
모델이 알려지지 않은 입력에 대해 안전하게 반응하는 방법을 일반화하지 못함을 의미
-
이러한 Competing Objectives와 mismatched generalization을 통해 새로운 'jailbreak' 공격을 설게하고, 최신 모델인 OpenAI의 GPT-4와 Anthropic의 Claude v1.3을 포함해 공격에 대한 모델의 취약성을 평가
-
모델의 고도화된 안전 훈련과 read-teaming의 노력에도 여전히 취약함이 존재함을 저자들은 발견
-
실패 모드를 활용한 새로운 공격이 모델의 안전 메커니즘을 우회하여 해로운 출력을 유발함
-
LLM의 안전성 확보이 중요성과 새로운 방어 메커니즘 개발의 필요성을 강조
2. Background: Safety-Trained Language Models and Jailbreak Attacks
2.1 Jailbreak Attacks on Restricted Behaviors
Safety-Trained Language Models
- 안전 훈련된 LLMs: 해로운 내용을 생성하거나 민감한 정보를 유출하는 것을 방지하기 위해 도입된 프로세스
- 사전 훈련된 모델을 인간의 선호도, 윤리적 기준에 맞춰 미세 조정함
- 입력과 출력을 모니터링하고 필터링해 부적절한 내용을 제거하는 후처리 단계가 포함될 수 있음
Jailbreak Attack
- 'Jailbreak' 공격은 안전하게 대답하도록 훈련된 모델에게 적절하지 않거나 해로운 반응을 유도하기 위해 고안된 적대적인 입력이다.
- 모델이 안전 훈련을 통해 회피하도록 훈련된 특정 카테고리의 프롬프트에 대해 의도적으로 조작된 프롬프트를 제시하여 수행된다.
- 공격의 성공은 모델이 수정된 프롬프트에 대해 원래의 요청과 관련된 주제에 대해 응답할 때 측정된다.
Jailbreak Attack Categories
원래의 prompt P와 수정된 공격 prompt P'에 대하여
- GOOD BOT : P'를 거를 경우
- BAD BOT : P'에 대해 해로운 내용을 제고하는 경우
- UNCLEAR : 대답이 모호할 경우
2.2 Evaluating Safety-trained Language Models
- OpenAI와 Anthropic의 최신 모델 사용
- 합성 데이터셋 사용
3. Failure Modes: Competing Objectives and Generalization Mismatch
3.1 Competing Objectives
- 모델이 여러 가지 서로 충돌할 수 있는 목표를 가지고 있을 때 발생한다. 특히, 모델이 사전 훈련 과정에서 습득한 언어 모델링 능력과 안전 목표 사이에 충돌이 일어날 수 있다.
Example: Prefix Injection

Example: Refusal Suppression

3.2 Mismatched Generalization
- 모델이 사전 훈련된 모메인에서는 잘 일반화되지만, 안전 훈련을 받지 않은 새로운 상황이나 조작된 입력에 대해서는 그러한 안전 훈련이 적용되지 않을 때 발생
- 모델이 안전 훈련 데이터에서 보지 못한 새로운 형태의 입력에 대응하는 방법을 제대로 학습하지 못했음을 의미
Example: Base64

4. Empirical Evaluation of Jailbreak Methods
4.1 Jailbreaks Evaluated
- Baseline ; none jailbreak
- Simple attacks ; prefix injection, refusal suppression, Base64 encoding, style injection, distractor instructions, other obfuscations, generating website content
- Combination attacks ; combination_1 (prefix injection + refusal supression), combination_2 (style injection + Base64 attack), combination_3 (generating website content + formatting constraints)
- Model-assisted attacks ; auto_payload_splitting (GPT-4에게 해로운 단어들 가리게), auto_obfuscation (LLM에게 해로운 단어들 가리게)
- Jailbreakchat.com ; 해당 사이트에 있는 유명한 jailbreak 사용
- Adversarial system prompt
- Adaptive attack
4.2 Evaluation
- 모델 개발자들이 red-teaming 평가에 사용한 해로운 프롬프트로 구성된 curated 데이터셋
- 보다 광범위한 범위를 포함하는 synthetic 데이터셋
4.3 Results


- 다양한 jailbreak 공격들이 평가되었으며, 그 중 몇몇은 모델이 red teaming 평가에서 사용된 프롬프트의 96% 이상에서 해로운 반응을 보이도록 유도하는 데 성공함. 특히, 경쟁 목표와 일치하지 않는 일반화에 기반한 새로운 공격들이 기존의 공격들보다 더 효과적이었음
- "Combination attacks"와 같은 복합적인 공격 방법이 강력함.
- Claude v1.3은 특정 유형의 공격에 대해 훈련되었음에도 다른 전략을 사용하는 공격에는 여전히 취약함을 발견
5. Implications for Defense
Limitation of scaling
- 단순히 모델의 크기를 늘리거나 데이터를 더 많이 추가하는 것만으로는 기존의 안전 훈련 실패 모드를 해결할 수 없다. 경쟁 목표와 일치하지 않는 일반화 같은 문제는 스케일링만으로 해결될 수 없는 구조적인 문제이다.
Safety-Capability Parity
- 안전 메커니즘은 모델의 기능과 능력에 맞게 발전해야 한다. 모델이 새로운 능력을 개발함에 따라, 이러한 능력을 악용할 수 있는 새로운 공격 벡터가 등장할 수 있다. 따라서, 모델의 안전 메커니즘도 이러한 발전에 발맞춰 업데이트되어야 한다.
- 단순한 필터링이나 flagging과 같은 후처리 방식만으로는 충분하지 않다. 대신, 모델이 고도로 정교한 공격에 대응할 수 있도록 보다 복잡하고 정교한 방어 메커니즘을 개발해야 한다.
6. Conclusion
- 안전 훈련의 한계
- 방어 전략의 개선 필요
- 지속적인 연구와 협력의 중요성
- 책임있는 공개와 윤리적 고려