이 글은 다음을 참고로 하여 작성함
위키독스 - Deep Learning Bible - 5. Reinforcement Learning - 한글/Solution Approaches
Model Based vs. Model Free
Model Based
- Planning
- Env.의 내부 작동이 알려진 경우 사용
Model Free
- RL
- Env.가 매우 복잡하고, 내부 작동 구조를 알 수 없을 때 사용
Prediction vs. Control
Prediction
policy -> [ evaluate ] -> Value function
- 모든 policy일 수 있으며, 반드시 optimal하지는 않음
Control
[ Find the best policy] -> optimal policy
- input이 없으며, policy 공간을 탐색해 optimal policy를 찾는 것이 목표
∴ RL 문제에서는 Moel free-Control 문제를 주로 다룸
Model-Free Approaches
- Env.와 실제로 상호작용해야만, Env.의 행동을 관찰할 수 있음
- 시행착오를 통해 한번에 한 action씩 상호작용하여 어떻게 작용하는지 배움
- Agent: 알고리즘(action -> next-state, reward를 확인, 반복)
→ pos/neg한 feedback을 얻음
- 각 단계를 수행한 trajectory 등이 알고리즘의 훈련 데이터가 됨
Bellman Equation
- Return은 두 부분으로 분해할 수 있음
1. Reward (for current State)
2. Next State로부터의 Discounted Return
→ 이 재귀 관계가 벨만 방정식
Gt=Rt+γGt+1
Return = Reward + next-discounted Return
- Value의 경우에도 Bellman 방정식은 동일하게 작용
- 단, 이 경우에는 평균값(Expected Value)을 사용
Bellman Equation for State Value
V(St)=E[Rt+γV(St+1)]
Value = Expected(reward + next-discounted Value)
Bellman Equation for Q-Value
Q(St,at)=E[Rt+γQ(St+1,at+1)]
Q-Val = Expected(reward + next-discounted Q-Val)
Bellman Equation을 사용하는 이유
- Episode의 끝까지 갈 필요가 없음 (Episode가 너무 길 경우에도 사용 가능)
- 추정치를 사용할 수 있음
- State-Return
- State-Reward + next-state Return
∴ 실제 Return과 계산된 추정치를 비교하여 생긴 '오차'를 줄이는 방식으로 추정치를 개선함
RL에서 이용하는 알고리즘은 이 방식을 채택