1. 강화학습
에이전트(Agent)가 환경(Environment)과 상호작용하며 목표를 달성하기 위해 스스로 의사결정하는 방법을 배우는 법
2. Bellman 방정식
- 에이전트가 어떤 행동에 대한 가치를 부여하는 방정식이다.
변수 정의
- s - State (모든 상태)
- a - Action (에이전트의 행동)
- R - Reward (보상)
- γ (감마) - Discount(할인계수)
V(s) = max(R(s, a) + γV(s'))
= (현재 s에 대한 a의 보상+ 다음상태의 보상 * 할인계수)의 최댓값
3. 마르코브 의사결정 과정(MDP)
- 강화학습의 기반이 되는 수학적 과정
(비유)
MDP = 미로의 규칙, 구조, 목표
Bellman equation = 미로 공략법
4. living penalty
- 에이전트가 불필요한 a(행동)을 하지 않도록 Bad Reward를 부여하는 것.
목적지 보상의 1/1000~1/100 수준의 living penalty가 적절하다.
living penalty가 너무 크면 목적지에 가기 전에 에이전트가 포기할 수 있음.
living penalty가 너무 작으면 최단 경로를 찾을 수 없음.