[RL] 기본 개념(MDP, Policy, Value functions, Bellman Equations)

JAsmine_log·2025년 8월 19일

Reinforcement Learning

기본 개념

MDP (Markov Decision Process) 정의

마르코프 결정 과정(MDP)로 모델링
MDP는 5-tuple로 정의 : $MDP = (S, A, P, R, γ)$
- $S$ : 상태 공간 (State Space) - 에이전트가 관찰할 수 있는 모든 상태의 집합
- $A$ : 행동 공간 (Action Space) - 에이전트가 취할 수 있는 모든 행동의 집합
- $P$ : 전이 확률 (Transition Probability) - $P(s'|s,a)$ , 상태 $s$ 에서 행동 $a$ 를 했을 때 상태 $s'$ 로 이동할 확률
- $R$ : 보상 함수 (Reward Function) - $R(s,a,s')$ , 상태 전이에 따른 즉시 보상
- $γ$ : 할인 인자 (Discount Factor) - 미래 보상의 현재 가치, $0 ≤ γ ≤ 1$

정책 (Policy) $π$ :

각 상태에서 어떤 행동을 선택할지 결정하는 함수

결정적 정책: (상태 $s$ 에서 항상 행동 $a$ 선택)

π(s) = a

확률적 정책: (상태 $s$ 에서 행동 $a$ 를 선택할 확률)

π(a|s)

가치 함수 (Value Functions)

상태 가치 함수 $V^π(s)$ :

정책 π를 따를 때 상태 s에서의 기대 누적 보상 $V^π(s) = E_π[∑{t=0}^∞ γ^t r{t+1} | s_0 = s]$

행동-가치 함수 $Q^π(s,a)$ :

상태 $s$ 에서 행동 $a$ 를 하고 이후 정책 $π$ 를 따를 때의 기대 누적 보상 $Q^π(s,a) = E_π[∑{t=0}^∞ γ^t r{t+1} | s_0 = s, a_0 = a]$

벨만 방정식 (Bellman Equations)

상태 가치 함수의 벨만 방정식:
$V^π(s) = ∑a π(a|s) ∑{s'} P(s'|s,a)[R(s,a,s') + γV^π(s')]$
행동-가치 함수의 벨만 방정식:
$Q^π(s,a) = ∑{s'} P(s'|s,a)[R(s,a,s') + γ∑{a'} π(a'|s')Q^π(s',a')]$

Everyday Research & Development

이전 포스트

[RL] Offline Feedback

다음 포스트

[RL] Bellman Equations

0개의 댓글