State-Action Reachability Estimation Function (SA-REF)
- 현재 정책 π 하에서 상태 s와 액션 a에서 시작하여 불안전 상태 Su에 도달할 확률 SA-REF(ψπ(s,a))를 정의
ψπ(s,a):=Eτ∼(π,P)[st∈τmaxI[st∈Su]∣s0=s,a0=a]
- SA-REF는 다음 Bellman 백업을 통해 계산될 수 있음 최적의 SA-REF(ψ∗)를 학습하며, 수렴을 보장하는 역방향 귀납법(backward induction)을 통해 가중치 업데이트
ψt+1(s,a)=max{I[st∈Su],Es′∼P(⋅∣s,a)a′∈Aminψt(s′,a′)}