Safety-Polarized and Prioritized Reinforcement Learning

Yuri·2025년 10월 9일

논문 리뷰

목록 보기
16/23

(ICML 2025, Accept)

Introduction

  • 자율주행과 같은 실제 AI 응용에서는 안전이 최우선이며, 하나의 치명적인 위험도 용납될 수 없음
  • 기존 CMDP(Constrained MDP) 접근은 사용자 지정 안전 예산에 의존하므로 필요 조건 이상의 최적 위험 수준을 학습하지 못함
  • 불안전 확률을 최소화한 뒤, 가장 안전한 정책들 중에서 보상을 최대화하는 강화학습 프레임워크 MAXSAFE 제안

Methodology

  1. State-Action Reachability Estimation Function (SA-REF)

    • 현재 정책 π\pi 하에서 상태 ss와 액션 aa에서 시작하여 불안전 상태 SuS_u에 도달할 확률 SA-REF(ψπ(s,a)\psi^\pi(s, a))를 정의
      ψπ(s,a):=Eτ(π,P)[maxstτI[stSu]s0=s,a0=a]\psi^\pi (s, a) := E_{\tau \sim(\pi,P)}[\max_{s_t \in \tau} I[s_t \in S_u] | s_0 = s, a_0 = a]
    • SA-REF는 다음 Bellman 백업을 통해 계산될 수 있음 최적의 SA-REF(ψ\psi^*)를 학습하며, 수렴을 보장하는 역방향 귀납법(backward induction)을 통해 가중치 업데이트
    ψt+1(s,a)=max{I[stSu],EsP(s,a)minaAψt(s,a)}\psi_{t+1}(s, a) = \max\{I[s_t \in S_u], E_{s^\prime\sim P (\cdot|s,a)} \min_{a^\prime\in A} \psi_t(s^\prime, a^\prime)\}
  2. Learning Optimal Action Masks

    • ψ\psi^*를 통해 상태 ss에서의 최소 불안전 확률 *$\zeta(s) := \min_{a\in A} \psi^(s, a)$를 정의
    • 최적 액션 마스크 Cζ(s)={bAψ(s,b)ζ(s)}C_\zeta(s) = \{b \in A | \psi^*(s, b) \leq \zeta(s)\} 생성
    • 학습 과정에서는 상수 κ\kappa를 포함하여 Cζt(s):={bAψt(s,b)ζt(s):=minaAψt(s,a)+κ}C_{\zeta_t}(s) := \{b \in A | \psi_t(s, b) \leq \zeta_t(s) := \min_{a\in A} \psi_t(s, a) + \kappa\}로 정의된 학습된 액션 마스크 사용
  3. Safe Q-Learning Update

    • 최적 액션 마스크가 적용된 Q-Learning
      Qt+1(st,at)(1βt)Qt(st,at)+βt(r(st,at)+γmaxaCζt(st+1)Qt(st+1,a))Q_{t+1}(s_t, a_t) \leftarrow (1 - \beta_t)Q_t(s_t, a_t) + \beta_t(r(s_t, a_t) + \gamma \max_{a^\prime \in C_{\zeta_t}(s_{t+1})} Q_t(s_{t+1}, a^\prime))

대규모 실험을 위해 2가지 훈련 기법 도입

  1. Safety Polarization

    불안전 상태-액션 쌍에 낮은 값을 할당하여 해당 액션의 선택을 억제하는 소프트 마스킹 기법 적용

    πt(s):=argmaxaAQt(s,a)+fpol(1ψt(s,a))fpol(1)=0,fpol(0)=:=limx0+fpol(x)=\pi_t(s) := \arg \max_{a \in A} Q_t(s, a) + f_{\text{pol}}(1 - \psi_t(s, a)) \\ f_{\text{pol}}(1)=0, f_{\text{pol}}(0)=-\infty := \lim_{x→0+} f_{pol}(x) = −∞
  2. Safety Prioritized Experience Replay (SPOM PER)

    • 희소한 비용 신호 문제를 해결하기 위해, SA-REF의 시간차(Temporal-Difference) 에러에 기반하여 샘플의 우선순위(pi=δi+ϵp_i = |\delta_i| + \epsilon)를 지정
      • PER은 Off-policy 강화 학습의 샘플 효율성을 높이고 수렴 속도를 가속화하는 기법
      • 리플레이 버퍼에서 샘플을 무작위로 추출하는 대신, TD(Temporal-Difference) 에러와 같은 특정 기준에 따라 각 전환에 우선순위를 할당
      • TD 에러가 큰 전환은 학습에 더 유용하거나 예측과 실제 값 사이에 큰 차이가 있음을 의미하므로, 이러한 전환에 높은 우선순위를 부여하여 에이전트가 더 중요한 경험에 집중하도록 함
    • δi=max{I[siSu],minaAψt(si+1,a)}ψt(si,ai)\delta_i = \max\{I[s_i \in S_u], \min_{a\in A} \psi_t(s_{i+1}, a)\} - \psi_t(s_i, a_i)이며, 샘플링 확률 P(i)=piαkpkαP(i) = \frac{p_i^\alpha}{\sum_k p_k^\alpha}와 중요도 샘플링 가중치 wi=(1N1P(i))θw_i = \left(\frac{1}{N} \cdot \frac{1}{P(i)}\right)^\theta 사용

Experimental Result

image.pngimage.png

0개의 댓글