Safety-Polarized and Prioritized Reinforcement Learning

Yuri·2025년 10월 9일

논문 리뷰

목록 보기

16/23

(ICML 2025, Accept)

State-Action Reachability Estimation Function (SA-REF)
- 현재 정책 $\pi$ 하에서 상태 $s$ 와 액션 $a$ 에서 시작하여 불안전 상태 $S_u$ 에 도달할 확률 SA-REF( $\psi^\pi(s, a)$ )를 정의 $\psi^\pi (s, a) := E_{\tau \sim(\pi,P)}[\max_{s_t \in \tau} I[s_t \in S_u] | s_0 = s, a_0 = a]$
- SA-REF는 다음 Bellman 백업을 통해 계산될 수 있음 최적의 SA-REF( $\psi^*$ )를 학습하며, 수렴을 보장하는 역방향 귀납법(backward induction)을 통해 가중치 업데이트
$\psi_{t+1}(s, a) = \max\{I[s_t \in S_u], E_{s^\prime\sim P (\cdot|s,a)} \min_{a^\prime\in A} \psi_t(s^\prime, a^\prime)\}$
Learning Optimal Action Masks
- $\psi^*$ 를 통해 상태 $s$ 에서의 최소 불안전 확률 *$\zeta(s) := \min_{a\in A} \psi^(s, a)$를 정의
- 최적 액션 마스크 $C_\zeta(s) = \{b \in A | \psi^*(s, b) \leq \zeta(s)\}$ 생성
- 학습 과정에서는 상수 $\kappa$ 를 포함하여 $C_{\zeta_t}(s) := \{b \in A | \psi_t(s, b) \leq \zeta_t(s) := \min_{a\in A} \psi_t(s, a) + \kappa\}$ 로 정의된 학습된 액션 마스크 사용
Safe Q-Learning Update
- 최적 액션 마스크가 적용된 Q-Learning $Q_{t+1}(s_t, a_t) \leftarrow (1 - \beta_t)Q_t(s_t, a_t) + \beta_t(r(s_t, a_t) + \gamma \max_{a^\prime \in C_{\zeta_t}(s_{t+1})} Q_t(s_{t+1}, a^\prime))$

대규모 실험을 위해 2가지 훈련 기법 도입

Safety Polarization

불안전 상태-액션 쌍에 낮은 값을 할당하여 해당 액션의 선택을 억제하는 소프트 마스킹 기법 적용
$\pi_t(s) := \arg \max_{a \in A} Q_t(s, a) + f_{\text{pol}}(1 - \psi_t(s, a)) \\ f_{\text{pol}}(1)=0, f_{\text{pol}}(0)=-\infty := \lim_{x→0+} f_{pol}(x) = −∞$
Safety Prioritized Experience Replay (SPOM PER)
- 희소한 비용 신호 문제를 해결하기 위해, SA-REF의 시간차(Temporal-Difference) 에러에 기반하여 샘플의 우선순위( $p_i = |\delta_i| + \epsilon$ )를 지정
  - PER은 Off-policy 강화 학습의 샘플 효율성을 높이고 수렴 속도를 가속화하는 기법
  - 리플레이 버퍼에서 샘플을 무작위로 추출하는 대신, TD(Temporal-Difference) 에러와 같은 특정 기준에 따라 각 전환에 우선순위를 할당
  - TD 에러가 큰 전환은 학습에 더 유용하거나 예측과 실제 값 사이에 큰 차이가 있음을 의미하므로, 이러한 전환에 높은 우선순위를 부여하여 에이전트가 더 중요한 경험에 집중하도록 함
- $\delta_i = \max\{I[s_i \in S_u], \min_{a\in A} \psi_t(s_{i+1}, a)\} - \psi_t(s_i, a_i)$ 이며, 샘플링 확률 $P(i) = \frac{p_i^\alpha}{\sum_k p_k^\alpha}$ 와 중요도 샘플링 가중치 $w_i = \left(\frac{1}{N} \cdot \frac{1}{P(i)}\right)^\theta$ 사용