벨만 방정식 - TIL

Scope.H·2024년 5월 12일
0

Today I learned

목록 보기
2/5

이 글은 다음을 참고로 하여 작성함
위키독스 - Deep Learning Bible - 5. Reinforcement Learning - 한글/Solution Approaches

Model Based vs. Model Free


Model Based

  • Planning
  • Env.의 내부 작동이 알려진 경우 사용

Model Free

  • RL
  • Env.가 매우 복잡하고, 내부 작동 구조를 알 수 없을 때 사용
    • Env.를 블랙박스로 취급

Prediction vs. Control


Prediction

policy -> [ evaluate ] -> Value function

  • 모든 policy일 수 있으며, 반드시 optimal하지는 않음

Control

[ Find the best policy] -> optimal policy

  • input이 없으며, policy 공간을 탐색해 optimal policy를 찾는 것이 목표

 {\therefore\ } RL 문제에서는 Moel free-Control 문제를 주로 다룸

Model-Free Approaches


  • Env.와 실제로 상호작용해야만, Env.의 행동을 관찰할 수 있음
    • 시행착오를 통해 한번에 한 action씩 상호작용하여 어떻게 작용하는지 배움
  • Agent: 알고리즘(action -> next-state, reward를 확인, 반복)
     {\rarr\ } pos/neg한 feedback을 얻음
  • 각 단계를 수행한 trajectory 등이 알고리즘의 훈련 데이터가 됨

Bellman Equation


  • Return은 두 부분으로 분해할 수 있음
    1. Reward (for current State)
    2. Next State로부터의 Discounted Return
     {\rarr\ } 이 재귀 관계가 벨만 방정식

    Gt=Rt+γGt+1{G_t = R_t + \gamma G_{t+1}}
    Return = Reward + next-discounted Return

  • Value의 경우에도 Bellman 방정식은 동일하게 작용
    • 단, 이 경우에는 평균값(Expected Value)을 사용

Bellman Equation for State Value

V(St)=E[Rt+γV(St+1)]{V(S_t) = \mathbb E[R_t + \gamma V(S_{t+1})]}
Value = Expected(reward + next-discounted Value)

Bellman Equation for Q-Value

Q(St,at)=E[Rt+γQ(St+1,at+1)]{Q(S_t, a_t) = \mathbb E [R_t + \gamma Q(S_{t+1}, a_{t+1})]}
Q-Val = Expected(reward + next-discounted Q-Val)

Bellman Equation을 사용하는 이유

  1. Episode의 끝까지 갈 필요가 없음 (Episode가 너무 길 경우에도 사용 가능)
  2. 추정치를 사용할 수 있음
    • State-Return
    • State-Reward + next-state Return

 {\therefore\ } 실제 Return과 계산된 추정치를 비교하여 생긴 '오차'를 줄이는 방식으로 추정치를 개선함

RL에서 이용하는 알고리즘은 이 방식을 채택

profile
개발자이고 싶은 미니 코딩쟁이... TIL 글을 주로 올립니다.

0개의 댓글