POMDP가 뭐야?

minsing-jin·2025년 6월 29일
0

RL

목록 보기
1/1

📌 POMDP 구성요소 (수식 기반)

POMDP는 다음 7개의 요소로 정의됩니다:

POMDP=S,A,T,R,O,Z,γ\text{POMDP} = \langle S, A, T, R, O, Z, \gamma \rangle
기호의미
SS상태(state)들의 집합
AA행동(action)들의 집합
T(ss,a)T(s' \mid s, a)상태 전이 확률: 행동 aa를 취했을 때, 상태 ss에서 ss'로 전이할 확률
R(s,a)R(s, a)보상 함수: 상태 ss에서 행동 aa를 했을 때의 기대 보상
OO관측값(observation)들의 집합
Z(os,a)Z(o \mid s', a)관측 확률: aa를 했을 때 ss'에 도달한 뒤, 관측값 oo를 얻을 확률
γ\gamma할인율 (0 ≤ γ\gamma ≤ 1)

📌 1. belief state (신념 상태)

에이전트는 현재 상태를 직접 알 수 없으므로, 다음과 같이 상태에 대한 확률 분포를 유지합니다:

b(s)=P(현재 상태가 s)b(s) = P(\text{현재 상태가 } s)

이를 belief state라고 부릅니다.
즉, 상태 공간 SS에 대해 다음과 같은 확률 분포를 가집니다:

b:S[0,1],sSb(s)=1b: S \rightarrow [0, 1], \quad \sum_{s \in S} b(s) = 1

📌 2. Belief 업데이트 수식 (Bayes 필터)

행동 aa 후 관측 oo를 받았을 때 belief를 업데이트하는 수식은:

b(s)=ηZ(os,a)sST(ss,a)b(s)b'(s') = \eta \cdot Z(o \mid s', a) \cdot \sum_{s \in S} T(s' \mid s, a) \cdot b(s)

여기서:

  • b(s)b(s): 기존 신념
  • T(ss,a)T(s' \mid s, a): 상태 전이 확률
  • Z(os,a)Z(o \mid s', a): 관측 확률
  • η\eta: 정규화 상수 (전체 합이 1이 되도록)

📌 3. 가치 함수 (Value Function)

belief에 기반한 가치 함수는 다음과 같이 정의됩니다:

V(b)=maxaA[sSb(s)R(s,a)+γoOP(ob,a)V(ba,o)]V(b) = \max_{a \in A} \left[ \sum_{s \in S} b(s) R(s, a) + \gamma \sum_{o \in O} P(o \mid b, a) V(b_{a,o}) \right]

여기서:

  • P(ob,a)P(o \mid b, a): belief 상태 bb에서 행동 aa 후 관측 oo가 나올 확률
  • ba,ob_{a,o}: 행동 aa 후 관측 oo에 대한 belief 업데이트 결과
  • V(ba,o)V(b_{a,o}): 업데이트된 belief에 대한 가치

📌 4. 관측 확률 계산

P(ob,a)=sZ(os,a)sT(ss,a)b(s)P(o \mid b, a) = \sum_{s'} Z(o \mid s', a) \sum_{s} T(s' \mid s, a) b(s)

🧠 핵심 요약

개념수식
Belief b(s)b(s)상태 ss에 있을 확률
업데이트(b'(s') = \eta Z(os',a) \sum_s T(s's,a) b(s))
가치함수(V(b) = \max_a [ \sum_s b(s) R(s,a) + \gamma \sum_o P(ob,a) V(b_{a,o}) ])

❗ 어려운 점

  • Belief space는 연속적인 고차원 확률 분포 → 계산량이 매우 큼
  • 그래서 근사 알고리즘 (예: Particle Filter, Point-based Value Iteration)이 자주 사용됨
profile
why not? 정신으로 맨땅에 헤딩하고 있는 코린이

0개의 댓글