[논문분석] Jailbroken: How Does LLM Safety Training Fail?

Jaehee Kim·2024년 3월 30일

Jailbroken LLM NEURIPS jailbreak

논문분석

목록 보기

2/5

Abstract

'Jailbraek'가 왜 성공하는지, 어떻게 만들어질 수 있는지
two failure modes of satety training

Competing objectives ; 모델의 능력과 satety 목표가 상충될 때
Mismatched generalization ; 특정 domain에 대해서 safety training이 실패할 때

1. Introduction

LLM 모델들의 바른 사용을 위해 safety mechanism들이 존재한다.
jailbreak : 모델이 피하도록 학습된 결과를 내놓도록 공격하는 것
본 논문에서 모델의 pretraining과 safety training 절차를 분석해서 안전하게 학습된 LLM의 약점을 분석한다.

Competing Objectives

모델의 사전 훈련 목표와 안전 목표가 충동할 때 발생
모델이 훈련 과정에서 습득한 일반적인 언어 모델링의 목표가 안전 관련 목표와 경쟁 관계에 있을 때, 특정 상황에서 모델은 안전을 유지하기보다는 사전 훈련 동안의 행동을 우선시한다.

Mismatched Generalization

모델이 사전 훈련 도메인에서는 잘 일반화하지만, 안전 훈련을 받지 않은 새로운 또는 적대적으로 만들어진 입력에 대해서는 그러한 안전 훈련을 적용하지 못할 때 발생
모델이 알려지지 않은 입력에 대해 안전하게 반응하는 방법을 일반화하지 못함을 의미
이러한 Competing Objectives와 mismatched generalization을 통해 새로운 'jailbreak' 공격을 설게하고, 최신 모델인 OpenAI의 GPT-4와 Anthropic의 Claude v1.3을 포함해 공격에 대한 모델의 취약성을 평가
모델의 고도화된 안전 훈련과 read-teaming의 노력에도 여전히 취약함이 존재함을 저자들은 발견
실패 모드를 활용한 새로운 공격이 모델의 안전 메커니즘을 우회하여 해로운 출력을 유발함
LLM의 안전성 확보이 중요성과 새로운 방어 메커니즘 개발의 필요성을 강조

2. Background: Safety-Trained Language Models and Jailbreak Attacks

2.1 Jailbreak Attacks on Restricted Behaviors

Safety-Trained Language Models

안전 훈련된 LLMs: 해로운 내용을 생성하거나 민감한 정보를 유출하는 것을 방지하기 위해 도입된 프로세스
사전 훈련된 모델을 인간의 선호도, 윤리적 기준에 맞춰 미세 조정함
입력과 출력을 모니터링하고 필터링해 부적절한 내용을 제거하는 후처리 단계가 포함될 수 있음

Jailbreak Attack

'Jailbreak' 공격은 안전하게 대답하도록 훈련된 모델에게 적절하지 않거나 해로운 반응을 유도하기 위해 고안된 적대적인 입력이다.
모델이 안전 훈련을 통해 회피하도록 훈련된 특정 카테고리의 프롬프트에 대해 의도적으로 조작된 프롬프트를 제시하여 수행된다.
공격의 성공은 모델이 수정된 프롬프트에 대해 원래의 요청과 관련된 주제에 대해 응답할 때 측정된다.

Jailbreak Attack Categories

원래의 prompt P와 수정된 공격 prompt P'에 대하여

GOOD BOT : P'를 거를 경우
BAD BOT : P'에 대해 해로운 내용을 제고하는 경우
UNCLEAR : 대답이 모호할 경우

2.2 Evaluating Safety-trained Language Models

OpenAI와 Anthropic의 최신 모델 사용
합성 데이터셋 사용

3. Failure Modes: Competing Objectives and Generalization Mismatch

3.1 Competing Objectives

모델이 여러 가지 서로 충돌할 수 있는 목표를 가지고 있을 때 발생한다. 특히, 모델이 사전 훈련 과정에서 습득한 언어 모델링 능력과 안전 목표 사이에 충돌이 일어날 수 있다.

Example: Prefix Injection

Example: Refusal Suppression

3.2 Mismatched Generalization

모델이 사전 훈련된 모메인에서는 잘 일반화되지만, 안전 훈련을 받지 않은 새로운 상황이나 조작된 입력에 대해서는 그러한 안전 훈련이 적용되지 않을 때 발생
모델이 안전 훈련 데이터에서 보지 못한 새로운 형태의 입력에 대응하는 방법을 제대로 학습하지 못했음을 의미

Example: Base64

4. Empirical Evaluation of Jailbreak Methods

4.1 Jailbreaks Evaluated

Baseline ; none jailbreak
Simple attacks ; prefix injection, refusal suppression, Base64 encoding, style injection, distractor instructions, other obfuscations, generating website content
Combination attacks ; combination_1 (prefix injection + refusal supression), combination_2 (style injection + Base64 attack), combination_3 (generating website content + formatting constraints)
Model-assisted attacks ; auto_payload_splitting (GPT-4에게 해로운 단어들 가리게), auto_obfuscation (LLM에게 해로운 단어들 가리게)
Jailbreakchat.com ; 해당 사이트에 있는 유명한 jailbreak 사용
Adversarial system prompt
Adaptive attack

4.2 Evaluation

두 가지 데이터셋을 사용하여 평가를 수행

모델 개발자들이 red-teaming 평가에 사용한 해로운 프롬프트로 구성된 curated 데이터셋
보다 광범위한 범위를 포함하는 synthetic 데이터셋

4.3 Results

다양한 jailbreak 공격들이 평가되었으며, 그 중 몇몇은 모델이 red teaming 평가에서 사용된 프롬프트의 96% 이상에서 해로운 반응을 보이도록 유도하는 데 성공함. 특히, 경쟁 목표와 일치하지 않는 일반화에 기반한 새로운 공격들이 기존의 공격들보다 더 효과적이었음
"Combination attacks"와 같은 복합적인 공격 방법이 강력함.
Claude v1.3은 특정 유형의 공격에 대해 훈련되었음에도 다른 전략을 사용하는 공격에는 여전히 취약함을 발견

5. Implications for Defense

Limitation of scaling

단순히 모델의 크기를 늘리거나 데이터를 더 많이 추가하는 것만으로는 기존의 안전 훈련 실패 모드를 해결할 수 없다. 경쟁 목표와 일치하지 않는 일반화 같은 문제는 스케일링만으로 해결될 수 없는 구조적인 문제이다.

Safety-Capability Parity

안전 메커니즘은 모델의 기능과 능력에 맞게 발전해야 한다. 모델이 새로운 능력을 개발함에 따라, 이러한 능력을 악용할 수 있는 새로운 공격 벡터가 등장할 수 있다. 따라서, 모델의 안전 메커니즘도 이러한 발전에 발맞춰 업데이트되어야 한다.
단순한 필터링이나 flagging과 같은 후처리 방식만으로는 충분하지 않다. 대신, 모델이 고도로 정교한 공격에 대응할 수 있도록 보다 복잡하고 정교한 방어 메커니즘을 개발해야 한다.

6. Conclusion

안전 훈련의 한계
방어 전략의 개선 필요
지속적인 연구와 협력의 중요성
책임있는 공개와 윤리적 고려

Jaehee Kim

이전 포스트

[논문분석] Are Emergent Abilities of Large Language Models a Mirage?

다음 포스트

[논문분석] Jailbroken: How Does LLM Safety Training Fail?

논문분석

Abstract

1. Introduction

Competing Objectives

Mismatched Generalization

2. Background: Safety-Trained Language Models and Jailbreak Attacks

2.1 Jailbreak Attacks on Restricted Behaviors

Safety-Trained Language Models

Jailbreak Attack

Jailbreak Attack Categories

2.2 Evaluating Safety-trained Language Models

3. Failure Modes: Competing Objectives and Generalization Mismatch

3.1 Competing Objectives

Example: Prefix Injection

Example: Refusal Suppression

3.2 Mismatched Generalization

Example: Base64

4. Empirical Evaluation of Jailbreak Methods

4.1 Jailbreaks Evaluated

4.2 Evaluation

4.3 Results

5. Implications for Defense

Limitation of scaling

Safety-Capability Parity

6. Conclusion

[논문분석] Are Emergent Abilities of Large Language Models a Mirage?

[논문분석] Toolformer: Language Models Can Teach Themselves to Use Tools

0개의 댓글