MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety

Yuri·2025년 10월 9일

논문 리뷰

목록 보기

17/23

Introduction

LLM은 다국어 안전 정렬 데이터의 부족으로 인해 다국어 환경에서 특히 탈옥(jailbreaking)과 같은 적대적 공격에 취약
다양한 언어에서 안전하지 않은 콘텐츠를 탐지하고 필터링할 수 있는 추론 기반의 다국어 가드레일인 MrGuard 제안

Methodology

Synthetic Data Generation
- 영어 안전 데이터셋 $D = \{(pl_{0i}, y_i)\}{i=1}^N$ 에서 각 프롬프트 $pl_{0i}$ 와 그 안전 레이블 $y_i \in \{\text{Safe, Unsafe}\}$ 에 대해 GPT-4o-mini를 사용하여 해당 레이블이 부여된 이유에 대한 추론 $el_{0i}$ 를 생성하고 증강된 데이터셋 $D_{l_0} = \{(pl_{0i}, el_{0i}, y_i)\}_{i=1}^N$ 구축
- $D$ 의 부분집합 $D_{sub}$ 를 샘플링하고, GPT를 통해 $pl_{0i} \in D_{sub}$ 를 안전 레이블 $y_i$ 은 유지하되 각 다국어 언어 $l_k$ 로 번역하여 $pl_{ki}$ 도출
- 매 $pl_{ki}, y_i$ 쌍에 대해 GPT를 통해 영어 추론 $el_{0i}$ 을 각 다국어 언어 $el_{ki}$ 로 번역하고 데이터셋 $D_{l_k} = \{(pl_{ki}, el_{0i}, el_{ki}, y_i)\}{i=1}^n$ 를 구축하며, $K$ 개의 대상 언어에 대한 다국어 데이터셋 $D{multi} = \{D_{l_0}, D_{l_1}, \ldots, D_{l_K}\}$ 구성
Supervised Fine-Tuning
기본 모델 $\pi$ 를 생성된 다국어 데이터셋 $D_{multi}$ 를 사용하여 fine-tuning한 모델 $\pi_{sft}$ 구축
Curriculum-Based Group Relative Policy Optimization (GRPO)
- $D_{l_0}$ 에서 부분집합 $D'_{l_0}$ 를 재샘플링하고, 각 프롬프트를 대상 언어 $l_k$ 로 번역한 커리큘럼 기반 훈련 스케줄 도입
- 언어 $l_k$ 의 프롬프트 $pl_k$ 와 그에 해당하는 영어 프롬프트 $pl_0 \in D'_{l_0}$ 에 대해, GPT에 지시하여 은어(slang), 지역 장소, 기관, 음식 및 기타 문화적/언어적 특정 요소를 포함하는 변형 $pl^\prime_k$ 와 $pl^{\prime\prime}_k$ 생성
- 번역 모델 $\pi_{bt}$ 를 사용하여 $pl^\prime_k$ 와 $pl^{\prime\prime}_k$ 를 다시 영어로 번역하고, 번역된 프롬프트와 원본 영어 프롬프트 $pl_0$ 간의 코사인 유사도를 기준으로 난이도 정의 $\text{Diff}(p) = \begin{cases} 0, \quad \text{cos}(\pi_{bt}(p), pl_0) > t_1, \\ 1, \quad \text{cos}(\pi_{bt}(p), pl_0) \in (t_2, t_1], \\ 2, \quad \text{otherwise}, \end{cases}$
- 모든 영어 프롬프트는 기준 난이도 0을 가지며, $t_1$ 과 $t_2$ 는 임계값 하이퍼파라미터임
- 훈련 중 난이도 수준 0의 프롬프트는 첫 번째 에폭에, 수준 1과 2의 프롬프트는 각각 두 번째와 세 번째 에폭에 점진적으로 추가
- 커리큘럼 구축 후, 참조 모델 $\pi_{sft}$ 를 GRPO(Group Relative Policy Optimization)로 최적화
  - Format reward ( $R_f$ ): 출력에 적절하게 형식화된 안전 예측("Safety: safe" 또는 "Safety: unsafe")이 없으면 -1, 있으면 1
  - Correctness reward ( $R_c$ ): 안전 예측이 맞으면 1, 틀리면 -1
  - Uncertainty reward ( $R_u$ ): 보조 인코더 전용 모델 $\pi_u$ 를 훈련하여 $\pi_{sft}$ 의 추론의 안전성을 이진 분류로 판단하게 하고, 이 소프트맥스 점수를 보상으로 사용
    예측이 맞으면 $R_u = \pi_u(q, \hat{e})$ 또는 틀리면 $R_u = -\pi_u(q, \hat{e})$
    - 보조 모델 $\pi_u$ 훈련
      - encoder-only model인 보조 모델 $\pi_u$ 를 별도로 훈련
      - 이 모델은 MrGuard가 생성한 추론 $\hat{e}$ 와 원래의 입력 쿼리 $q$ 를 받아서 해당 쿼리가 safe한지 unsafe한지 이진 분류 수행
    - 보상 계산 방식
      - 만약 $\pi_u$ 의 예측이 실제 안전성 레이블과 일치한다면, $\pi_u$ 가 계산한 softmax score 값이 그대로 보상으로 주어짐
      - 만약 $\pi_u$ 의 예측이 실제 안전성 레이블과 불일치한다면, $\pi_u$ 가 계산한 softmax score 값에 음수를 붙여 보상으로 주어짐
  - Language reward ( $R_{lang}$ ): 두 번째 및 세 번째 단계에서 입력 문장이 대상 언어에 더 원어민에 가까워지므로, 모델이 대상 언어로 추론을 생성하도록 장려 $R_{lang} = \begin{cases} 0.5, & \text{if difficulty} = 1 \\ 1.0, & \text{if difficulty} = 2 \\ 0.0, & \text{otherwise} \end{cases}$
  - 개별 보상은 선형 결합되어 단일 스칼라 보상 값 $R = R_f + R_c + R_u + R_{lang}$ 이 되고, 이를 바탕으로 GRPO 적용

Experimental Result

Yuri

이전 포스트

Safety-Polarized and Prioritized Reinforcement Learning

다음 포스트

MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety

논문 리뷰

Introduction

Methodology

Experimental Result

Safety-Polarized and Prioritized Reinforcement Learning

MPO: Multilingual Safety Alignment via Reward Gap Optimization

0개의 댓글