강화 학습 - 1. 시작

Kim Min hyuk·2023년 4월 13일
0

Reinforcement Learning

목록 보기
1/1

시작하기...

이 주제는, Sutton 교수의 "Reinforcement Learning: An Introduction" 를 기반으로,
해당 Textbook에 따라 포스팅 될 예정이다.

전체 포스팅의 구성은 다음과 같다.

목차

  • Tabular Solution Methods

    • Multi-armed Bandits
    • Finite Markov Decision Processes
    • Dynamic Programming
    • Monte Carlo Methods
    • Temporal-Difference Learning
    • nn-step Bootstrapping
    • Planning and Learning with Tabular Methods
  • Approximate Solution Methods

    • On-policy Prediction with Approximation
    • On-policy Control with Approximation
    • Off-policy Methods with Approximation
    • Eligibility Traces
    • Policy Gradient Methods
  • Looking Deeper

    • Psychology
    • Neuroscience
    • Applications and Case Studies
    • Frontiers

Tabular method와 Approximate Solution Methods의 관계에 대해서 간략하게 소개하고 넘어가자면,
기본적으로, 강화학습이 Markov Decision Processes(MDP)의 틀에서 이루어 진다는 것을 알아야한다.
MDP를 통해 문제를 해결할 수 있다면, 강화학습도 필요하지 않다.

하지만, 문제가 복잡해 질수록, MDP로 문제를 해결하는데 어려움이 생기게 되고, 이를 근사적으로 풀이하는 방법인 Approximate Solution Methods를 이용하게 된다.
그렇기 때문에,

  • Tabular method에서는 MDP를 풀이하는 이론적인 방법들을 다루고, 그에 대한 어려움을 확인한다
  • Approximate Solution Methods에서는 이론적으로 MDP를 풀이하는 방법을 근사적으로 다루는 방법에 대해 소개한다.

이하 Looking Deeper의 경우, 추가적인 정보 정도로 생각하면 좋을것 같다.

0개의 댓글