[강화학습] Reinforcement Learning
목표
- 목표를 달성하고자 하는 agent와 불확실한 환경의 상호작용 -> 최적의 policy 구하기
- MDP와 목표가 같다.
MDP와의 차이
- MRL에선 model 없이 동일한 과정을 수행한다. 즉 data-driven 근사를 한다.
- transition probability, reward function의 함수적 구조를 모른다.
- simulation을 통해 state 변화와 reward signal을 얻어 사용한다.
배경/역사
- 공학적 관점 : Optimal Control
initial point -> destination 과정에서, 시간 혹은 연료소비를 최소화하기
- 심리학적 관점 : trial-and-error learning
유아는 여러 가지 시도를 해보며, 맞는 방법을 찾아가며 학습한다.
- temporal-difference learning으로 이어진다.
특징
- no supervisor(라벨된 data 없다), reward signal(immediate benefit)만 주어진다.
- feedback이 delay될 수 있다.
system의 trajectory를 변경하며 진행하며, 그 영향이 조금 나중에 올 수 있다.
- 시간이 중요하다. Sequential하게 진행된다.
- Exploration & Exploitation Tradeoff
- 현 action 잘 취해야 이후 더 유용한 데이터가 오게된다.
- 이때 당장 이득을 위한 의사결정을 할 것인가(exploitation)
vs 더 좋은 데이터를 위한 의사결정을 할 것인가(exploration)
대표적인 알고리즘
- Q-Learning : value space에서만 돌아감
- Policy gradient : policy space 에서만 돌아감
- Actor-critic : value space와 policy space 모두 활용
- actor : update policy parameter
- critic : evaluate the updated policy
- policy iteration의 강화학습 버전이다.