강화학습이란?
✔ Core Concept of Reinforcement Learning
The term “reinforcement” is oriented in the context of animal learning in psychology
강확학습이라는 개념은 동물들을 학습을 시키는 것에서 시작이 되었다.
- 컨셉은 행동의 패턴을 강화하는 것에서 시작되었다.
The concept is the strengthening of a behavior pattern when an animal receives a stimulus
- pleasure-oriented
✔ The 7 key components of reinforcement learning include
Agent
- The entity that makes decisions and takes actions in the environment.
- 환경 내에서 decision도 내리고 그에 따라서 action도 취하는 주체, 학습을 시키는 주체
Environment
- state 라는 것으로 characterized가 되고, agent와 interacion하는 대상
State
Action
Reward
- 내가 어떤 액션을 취했을 때 그에 해당하는 보상
- 좋은 action → 양수의 reward
- 나쁜 action → 음수의 reward, 0
Policy
- 어떤 state에서 action으로 mapping 하는 함수, agent의 행동을 정의하는
- deterministic : a specific action for each state , 100% 절대 예외 없음
- stochastic : a probability distribution over possible actions
Value function
- 이 state에서 예상되는 앞으로의 합쳐진 reward
- 이 state에 자체에 대한 평가를 하기 위해 존재
→ 로봇이 쓰레기를 주우러 다니며 쓰레기를 주울 때 보상을 받는 예시를 생각해보자.
어떤 state에서는 쓰레기가 많아서 쉽게 좋은 reward를 얻을 수 있는 반면 어떤 state는 쓰레기가 0개여서 reward를 얻을 수 없다. 이런 것을 평가 하기 위해서 존재한다.
- state를 평가하기 위해 예상되는 기댓값
✔ The objective of RL is to learn an optimal policy
강화학습은 행동에 판단을 내릴 때 리워드가 잘 모일 수 있도록 하는 정책을 배우는 것을 목적으로 한다. 이 정택이 optimal policy이다.
-
최적정책이란 expected cumulative reward를 극대화하는 전략을 찾는 것이다.
-
여러개의 액션을 해보면서 나오는 결과물들을 확인하고 해 본 결과들을 가지고 강화해나간다.
-
이런 것들을 하기 위한 다양한 알고리즘이 있다.
Does the agent explore the environment by trying different actions?
내가 수많은 액션들을 다 해보지 않으면 어떤 것이 제일 좋은지 알 수가 없다.
직접해봐야지만 reward를 알 수 있다. 될 수 있으면 다양한 액션을 해보고 평가를 해봐야 한다.
✔ The reinforcement learning loop
대다수의 강화학습은 일반적으로 아래와 같은 과정을 거쳐 학습을 진행한다.
-
agent는 현재 environment가 어떤 상황인지 observe한다.
-
관찰 한 것을 바탕으로 current policy에 따라 action을 한다.
-
선택된 action을 수행 → environment의 state가 바뀜
-
행동에 대한 reward를 받고 새로운 observation을 한다.
-
agent가 자신의 knowledge(policy, value function, or action-value function)를 업데이트 한다.
-
이 과정을 계속 반복한다. 완료되었다고 생각될 때까지
Reference
이 글은 강형엽 교수님의 게임공학[GE-23-1] 수업을 수강하고 정리한 내용입니다.
[mdpw] https://en.wikipedia.org/wiki/Markov_decision_process
[sutton] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press