우리가 환경과 상호작용함으로써 배운다는 생각은 아마도 우리가 학습의 본질에 대해 생각할 때 가장 먼저 떠오르는 생각일 것입니다.
유아기때 아이가 팔을 흔들거나, 주위를 둘러볼 때 특별한 선생님은 없지만 환경과 연결된 직접적인 감각을 통해 아이는 자신의 행동을 느낄 수 있습니다.
이런 감각적 연결을 통해 원인과 결과, 행동의 결과, 목표 달성을 위해 무엇을 해야 하는지 등에 대한 풍부한 정보가 생성됩니다.인생 전반에 있어서도, 위와 같은 상호작용은 주변환경 및 우리 자신에 관한 지식의 주요 원천이라고 할 수 있고, 이런 상호작용을 통해서 얻은 배움이 모든 지식과 지성의 이론에 기초가 되는 근본적인 생각이라고 할 수 있습니다.
강화학습은 상호작용을 통한 학습을 계산적인(computational) 접근방법으로 탐험하는 것이라고 할 수 있습니다.
Richard S.Sutton and Andrew G. Barto, Reinforcement Learning, Chapter1 Introduction p1,
In DeepMind X UCL RL Lecture Series (1/13)
What is reinforcement learning?
- People and animals learn by interacting with our environment
- This differs from certain other types of learning
- It is active rather than passive
- Interactions are often sequential => future interactions can depend on earlier ones
- We are goal-directed
- We can learn without example of optimal behavior
- Instead, we optimise some reward signal
The reward hypothesis
- Reinforcement learning is based on the reward hypothesis
Any goal can be formalized as the outcome of maximizing a culmulative reward
What is reinforcement learning
There are distinct reasons to learn:
1. Find solutions
- A program that plays chess really well
- A manufacturing robot with a specific purpose
2. Adapt online, deal with unforeseen circumstances
- A chess program that can learn to adapt to you
- A robot that can learn to navigate unknown terrains
Reinforcement learning can provide algorithms for both cases
Note that the second point is not (just) about generalization - it is about continuing to learn efficiently online, during operation
순차적인 행위를 결정하는 문제를 풀기 위한 기초적인 가정으로 마르코프 성질을 이용한다.
에이전트가 받은 보상은 그저 샘플 정도이며, 보상 함수에 접근할 수 없음.
또한 상태와 행동 공간이 일반적으로 크기 때문에(무한대에 가까울 수도..) 매우 드물고(sparse)하고 약한 피드백으로 학습을 하면 샘플로 학습을 하기가 어려워짐
그러기에 에이전트는 샘플링된 피드백으로 학습해야 하고, 이를 통해 일반화할 수 있어야 함.
정책을 근사화하도록 설계된 에이전트를 정책 기반(policy-based) 에이전트라고 하고,
가치 함수를 근사화하도록 설계된 에이전트를 가치 기반(value-based) 에이전트,
모델을 근사화하도록 설계된 에이전트를 모델 기반(model-based) 에이전트,
정책과 가치 함수 둘 다 근사화하도록 설계된 에이전트를 액터-크리틱(actor-critic) 에이전트 라고 함.