[강화학습] Reinforcement Learning

Recorder·2022년 4월 21일
0

목표

  • 목표를 달성하고자 하는 agent와 불확실한 환경의 상호작용 -> 최적의 policy 구하기
  • MDP와 목표가 같다.

MDP와의 차이

  • MRL에선 model 없이 동일한 과정을 수행한다. 즉 data-driven 근사를 한다.
    • transition probability, reward function의 함수적 구조를 모른다.
    • simulation을 통해 state 변화와 reward signal을 얻어 사용한다.

배경/역사

  • 공학적 관점 : Optimal Control
    initial point -> destination 과정에서, 시간 혹은 연료소비를 최소화하기
  • 심리학적 관점 : trial-and-error learning
    유아는 여러 가지 시도를 해보며, 맞는 방법을 찾아가며 학습한다.
    • temporal-difference learning으로 이어진다.

특징

  • no supervisor(라벨된 data 없다), reward signal(immediate benefit)만 주어진다.
  • feedback이 delay될 수 있다.
    system의 trajectory를 변경하며 진행하며, 그 영향이 조금 나중에 올 수 있다.
  • 시간이 중요하다. Sequential하게 진행된다.
  • Exploration & Exploitation Tradeoff
    • 현 action 잘 취해야 이후 더 유용한 데이터가 오게된다.
    • 이때 당장 이득을 위한 의사결정을 할 것인가(exploitation)
      vs 더 좋은 데이터를 위한 의사결정을 할 것인가(exploration)

대표적인 알고리즘

  • Q-Learning : value space에서만 돌아감
  • Policy gradient : policy space 에서만 돌아감
  • Actor-critic : value space와 policy space 모두 활용
    • actor : update policy parameter
    • critic : evaluate the updated policy
    • policy iteration의 강화학습 버전이다.
profile
기억은 나 대신 컴퓨터가

0개의 댓글