Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal Direction

Yuri·2025년 8월 8일

논문 리뷰

목록 보기

8/23

(EMNLP2025 Finding, Accept)

Introduction

불충분한 안전 정렬 깊이는 초기 응답 토큰의 유해성 억제에만 집중하여 후속 토큰의 유해성을 간과함
이로 인해 prefilling 공격과 같이 초기 응답 토큰을 조작하여 모델의 내부 방어 체계를 우회할 수 있음
불안정한 내부 방어 메커니즘으로, 기존 방어 방법들은 반복적인 Jailbreak 공격이나 거부 방향 조작과 같은 공격에 쉽게 뚫림

→ fine-tuning 과정에서 확률적으로 거부 방향을 계층별 및 토큰별로 ablation함으로써 모델이 Jailbreak 상태로부터 거부 메커니즘을 동적으로 적용하도록 유도하는 DeepRefusal 제안

Methonology

각 계층 $l \in [L]$ 과 프롬프트 이후 토큰 위치 $i \in [I]$ 에 대해 유해한 프롬프트( $D^{(train)}_{harmful}$ )와 무해한 프롬프트( $D^{(train)}_{benign}$ )의 평균 activation을 계산:

\mu_i^{(l)} = \frac{1}{|D_{\text{harmful}}^{(\text{train})}|} \sum_{t \in D_{\text{harmful}}^{(\text{train})}} h_i^{(l)}(t) \\ \nu_i^{(l)} = \frac{1}{|D_{\text{benign}}^{(\text{train})}|} \sum_{t \in D_{\text{benign}}^{(\text{train})}} h_i^{(l)}(t)

두 평균 벡터의 차이가 후보 거부 방향 $r^{(l)}_i = \mu^{(l)}_i - \nu^{(l)}_i$ 을 정의

DeepRefusal은 두가지 방식의 확률적 활성화 제거(Probabilistic Activation Ablation, PAA)를 통해 Jailbreak 시나리오를 시뮬레이션

레이어별 PAA (Layer-wise PAA): $Q_l \sim Bernoulli(p)$ 로써 각 레이어 $l \in [L]$ 에서 확률적으로 거부 방향 $\hat{r}$ 을 제거할지 여부 개입. 모델의 다양한 깊이에서 내부 안전 메커니즘이 손상된 적대적 조건을 시뮬레이션하여, 모델이 전체 레이어 깊이에 걸쳐 거부 행동을 강화하도록 유도
$h^{\prime} \leftarrow h - Q_l(\hat{r}\hat{r}^\top h)$
토큰별 PAA (Token-wise PAA): $M_{l,t} \sim Bernoulli(p)$ 로써 레이어 $l$ 과 토큰 위치 $t$ 에서 확률적으로 개입. 특정 토큰이 조작되거나 억제되는 적대적 조건을 시뮬레이션하여, 다양한 입력에 대해 거부 행동을 강화하도록 유도
$h^{(l)^{\prime}}_t = h^{(l)}_t - Q_{ml} \times M_{ml,t} \hat{r} \hat{r}^\top h^{(l)}_t$

Attention, Multi-Layer Perceptron (mlp), Residual Stream 모듈에 PAA 적용

DeepRefusal은 (x, y) (무해한 지시와 안전한 응답), (x', y' $_{\le k}$ , y) (prefilling 공격을 시뮬레이션하기 위해 응답의 유해 접두사 $k \sim Uniform[20, 25]$ 를 추가한 유해 프롬프트에 대한 안전한 응답)을 입력 데이터로 하며, 다음 목적 함수를 최소화하도록 fine-tuning됨

\min_\theta \alpha \times E\left[ -\log \pi_\theta(y|x^{\prime}, y^{\prime}; \{h^{(l)^{\prime};}\}_{l=1}^L) \right] + (1 - \alpha) \times E\left[ -\log \pi_\theta(y|x; \{h^{(l)^{\prime}}\}_{l=1}^L) \right]

Result

Table 1 Table 1: Several representative jailbreak methods were selected for evaluating safety alignment. The robustness is measured by ASR(%). Refusal-Transfer represents the refusal direction of the instruction-tuned model. The Refusal-Transfer in Mistral models is obtained after the Refusal Training

Yuri

이전 포스트

Learning to Filter Context for Retrieval-Augmented Generation

다음 포스트