[RL] 기본 개념(MDP, Policy, Value functions, Bellman Equations)

JAsmine_log·2025년 8월 19일
0

Reinforcement Learning

기본 개념

MDP (Markov Decision Process) 정의

  • 마르코프 결정 과정(MDP)로 모델링
  • MDP는 5-tuple로 정의 : MDP=(S,A,P,R,γ)MDP = (S, A, P, R, γ)
    • SS: 상태 공간 (State Space) - 에이전트가 관찰할 수 있는 모든 상태의 집합
    • AA: 행동 공간 (Action Space) - 에이전트가 취할 수 있는 모든 행동의 집합
    • PP: 전이 확률 (Transition Probability) - P(ss,a)P(s'|s,a), 상태 ss에서 행동 aa를 했을 때 상태 ss'로 이동할 확률
    • RR: 보상 함수 (Reward Function) - R(s,a,s)R(s,a,s'), 상태 전이에 따른 즉시 보상
    • γγ: 할인 인자 (Discount Factor) - 미래 보상의 현재 가치, 0γ10 ≤ γ ≤ 1

정책 (Policy) ππ :

각 상태에서 어떤 행동을 선택할지 결정하는 함수

결정적 정책: (상태 ss에서 항상 행동 aa 선택)

π(s)=aπ(s) = a

확률적 정책: (상태 ss에서 행동 aa를 선택할 확률)

π(as)π(a|s)

가치 함수 (Value Functions)

상태 가치 함수 Vπ(s)V^π(s):

  • 정책 π를 따를 때 상태 s에서의 기대 누적 보상
    Vπ(s)=Eπ[t=0γtrt+1s0=s]V^π(s) = E_π[∑{t=0}^∞ γ^t r{t+1} | s_0 = s]

행동-가치 함수 Qπ(s,a)Q^π(s,a):

  • 상태 ss에서 행동 aa를 하고 이후 정책 ππ를 따를 때의 기대 누적 보상
    Qπ(s,a)=Eπ[t=0γtrt+1s0=s,a0=a]Q^π(s,a) = E_π[∑{t=0}^∞ γ^t r{t+1} | s_0 = s, a_0 = a]

벨만 방정식 (Bellman Equations)

  • 상태 가치 함수의 벨만 방정식:

    Vπ(s)=aπ(as)sP(ss,a)[R(s,a,s)+γVπ(s)]V^π(s) = ∑a π(a|s) ∑{s'} P(s'|s,a)[R(s,a,s') + γV^π(s')]
  • 행동-가치 함수의 벨만 방정식:

    Qπ(s,a)=sP(ss,a)[R(s,a,s)+γaπ(as)Qπ(s,a)]Q^π(s,a) = ∑{s'} P(s'|s,a)[R(s,a,s') + γ∑{a'} π(a'|s')Q^π(s',a')]
profile
Everyday Research & Development

0개의 댓글