MPO: Multilingual Safety Alignment via Reward Gap Optimization

Yuri·2025년 10월 9일

논문 리뷰

목록 보기
18/23

(ACL 2025, Accept)

Introduction

  • RLHF 및 DPO는 주로 단일 언어에 초점을 맞추고 있으며, 노이즈가 많은 다국어 데이터에 취약
  • MPO는 잘 정렬된 주류 언어의 안전 역량을 활용하여 다양한 목표 언어 전반에 걸쳐 안전 정렬 개선
    • 경험적 분석을 통해 주류 언어는 비주류 언어에 비해 리워드 갭, 즉 안전한 응답과 안전하지 않은 응답 간의 log-likelihood가 훨씬 크며, 이는 ASR과 반비례 관계를 가짐 → 리워드 갭이 클수록 ASR이 낮아져 안전 성능이 향상
    • MPO는 비주류 언어의 리워드 갭이 주류 언어의 리워드 갭 수준에 달하도록 상호 간의 차이를 최소화

Methodnology

image.png

MPO는 SimPO(Simple Preference Optimization)에서 제안하는 average log-likelihood를 암시적 리워드로 채택

MPO의 전체 목적 함수는 다음 두 가지 항으로 구성됨

  1. Reward Gap Alignment

    • 큰 리워드 갭으로 나타나는 주류 언어의 강한 정렬과 비주류 언어의 약한 정렬 간의 불일치 최소화
      → 주류 언어의 안전 정렬을 비주류 언어로 전이
      L1=E(x,yw,yl)D[β(RGtRGd)2]L_1 = E_{(x,y_w,y_l)\sim D} \left[ \beta (RG_t - RG_d)^2 \right]
      ttdd는 각각 비주류 언어와 주류 언어이며, β\beta는 하이퍼파라미터임
    • 리워드 갭 RGtRG_tRGdRG_d는 다음과 같이 계산됨
      RGt=1ytwlogπθ(ytwxt)1ytllogπθ(ytlxt)RGd=1ydwlogπref(ydwxd)1ydllogπref(ydlxd)RG_t = \frac{1}{|y_t^w|} \log \pi_\theta(y_t^w|x_t) - \frac{1}{|y_t^l|} \log \pi_\theta(y_t^l|x_t) \\ RG_d = \frac{1}{|y_d^w|} \log \pi_{\text{ref}}(y_d^w|x_d) - \frac{1}{|y_d^l|} \log \pi_{\text{ref}}(y_d^l|x_d)
      xtx_t, ytwy_t^w, ytly_t^l은 비주류 언어의 입력 쿼리, 안전 응답, 안전하지 않은 응답이며, xdx_d, ydwy_d^w, ydly_d^l은 주류 언어의 해당 쌍임
      πθ\pi_\theta는 정책 모델, πref\pi_{\text{ref}}는 레퍼런스 모델이며, 여기서 RGdRG_d는 참조 모델에서 파생되므로 학습 가능한 파라미터 θ\theta에 대해 상수로 간주
  2. Hidden Representation Retention

    주류 언어의 성능이 저하되지 않도록 마지막 토큰의 hidden representations을 손상시키지 않도록 제약

    L2=ExdD[hdhdref22]L_2 = E_{x_d \sim D} [\|h_d - h_{d_{\text{ref}}}\|_2^2]

    hdh_d는 정책 모델에서 얻은 주도 언어 xdx_d의 표현이고, hdrefh_{d_{\text{ref}}}는 참조 모델에서 얻은 주도 언어 xdx_d의 표현임

MPO의 최종 목적 함수는 L=L1+L2L = L_1 + L_2

MPO의 훈련은 비주류 언어에 대한 그래디언트 θL1(θ)∇_\theta L_1(\theta)에 의해 이루어지며, 이는 θRGt(θ)∇_\theta RG_t(\theta)가 비주류 언어에 대해 안전 응답 ytwy_t^w의 likelihood는 증가시키고 안전하지 않은 응답 ytly_t^l의 likelihood는 감소시키는 방향으로 작동
이때 wθ=β(RGt(θ)RGd)w_\theta = \beta (RG_t(\theta) - RG_d) 항은 목표 언어의 리워드 갭과 주도 언어의 리워드 갭을 비교하여 그훈련의 방향과 정도를 조절

Experimental Result

image.pngimage.png

0개의 댓글