Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal Direction

Yuri·2025년 8월 8일

논문 리뷰

목록 보기
8/23

(EMNLP2025 Finding, Accept)

Introduction

  • 불충분한 안전 정렬 깊이는 초기 응답 토큰의 유해성 억제에만 집중하여 후속 토큰의 유해성을 간과함
    이로 인해 prefilling 공격과 같이 초기 응답 토큰을 조작하여 모델의 내부 방어 체계를 우회할 수 있음
  • 불안정한 내부 방어 메커니즘으로, 기존 방어 방법들은 반복적인 Jailbreak 공격이나 거부 방향 조작과 같은 공격에 쉽게 뚫림

→ fine-tuning 과정에서 확률적으로 거부 방향을 계층별 및 토큰별로 ablation함으로써 모델이 Jailbreak 상태로부터 거부 메커니즘을 동적으로 적용하도록 유도하는 DeepRefusal 제안

Methonology

각 계층 l[L]l \in [L]과 프롬프트 이후 토큰 위치 i[I]i \in [I]에 대해 유해한 프롬프트(Dharmful(train)D^{(train)}_{harmful})와 무해한 프롬프트(Dbenign(train)D^{(train)}_{benign})의 평균 activation을 계산:

μi(l)=1Dharmful(train)tDharmful(train)hi(l)(t)νi(l)=1Dbenign(train)tDbenign(train)hi(l)(t)\mu_i^{(l)} = \frac{1}{|D_{\text{harmful}}^{(\text{train})}|} \sum_{t \in D_{\text{harmful}}^{(\text{train})}} h_i^{(l)}(t) \\ \nu_i^{(l)} = \frac{1}{|D_{\text{benign}}^{(\text{train})}|} \sum_{t \in D_{\text{benign}}^{(\text{train})}} h_i^{(l)}(t)

두 평균 벡터의 차이가 후보 거부 방향 ri(l)=μi(l)νi(l)r^{(l)}_i = \mu^{(l)}_i - \nu^{(l)}_i을 정의

DeepRefusal은 두가지 방식의 확률적 활성화 제거(Probabilistic Activation Ablation, PAA)를 통해 Jailbreak 시나리오를 시뮬레이션

  1. 레이어별 PAA (Layer-wise PAA): QlBernoulli(p)Q_l \sim Bernoulli(p)로써 각 레이어 l[L]l \in [L]에서 확률적으로 거부 방향 r^\hat{r}을 제거할지 여부 개입. 모델의 다양한 깊이에서 내부 안전 메커니즘이 손상된 적대적 조건을 시뮬레이션하여, 모델이 전체 레이어 깊이에 걸쳐 거부 행동을 강화하도록 유도

    hhQl(r^r^h)h^{\prime} \leftarrow h - Q_l(\hat{r}\hat{r}^\top h)
  2. 토큰별 PAA (Token-wise PAA): Ml,tBernoulli(p)M_{l,t} \sim Bernoulli(p)로써 레이어 ll과 토큰 위치 tt에서 확률적으로 개입. 특정 토큰이 조작되거나 억제되는 적대적 조건을 시뮬레이션하여, 다양한 입력에 대해 거부 행동을 강화하도록 유도

    ht(l)=ht(l)Qml×Mml,tr^r^ht(l)h^{(l)^{\prime}}_t = h^{(l)}_t - Q_{ml} \times M_{ml,t} \hat{r} \hat{r}^\top h^{(l)}_t

Attention, Multi-Layer Perceptron (mlp), Residual Stream 모듈에 PAA 적용

DeepRefusal은 (x, y) (무해한 지시와 안전한 응답), (x', y'k_{\le k}, y) (prefilling 공격을 시뮬레이션하기 위해 응답의 유해 접두사 kUniform[20,25]k \sim Uniform[20, 25]를 추가한 유해 프롬프트에 대한 안전한 응답)을 입력 데이터로 하며, 다음 목적 함수를 최소화하도록 fine-tuning됨

minθα×E[logπθ(yx,y;{h(l);}l=1L)]+(1α)×E[logπθ(yx;{h(l)}l=1L)]\min_\theta \alpha \times E\left[ -\log \pi_\theta(y|x^{\prime}, y^{\prime}; \{h^{(l)^{\prime};}\}_{l=1}^L) \right] + (1 - \alpha) \times E\left[ -\log \pi_\theta(y|x; \{h^{(l)^{\prime}}\}_{l=1}^L) \right]

Result

Table 1Table 1: Several representative jailbreak methods were selected for evaluating safety alignment. The robustness is measured by ASR(%). Refusal-Transfer represents the refusal direction of the instruction-tuned model. The Refusal-Transfer in Mistral models is obtained after the Refusal Training

0개의 댓글