1. 강화학습

에이전트(Agent)가 환경(Environment)과 상호작용하며 목표를 달성하기 위해 스스로 의사결정하는 방법을 배우는 법

2. Bellman 방정식

  • 에이전트가 어떤 행동에 대한 가치를 부여하는 방정식이다.

변수 정의

  • s - State (모든 상태)
  • a - Action (에이전트의 행동)
  • R - Reward (보상)
  • γ (감마) - Discount(할인계수)

V(s) = max(R(s, a) + γV(s'))

     = (현재 s에 대한 a의 보상+ 다음상태의 보상 * 할인계수)의 최댓값
        
  
  

3. 마르코브 의사결정 과정(MDP)

  • 강화학습의 기반이 되는 수학적 과정
    (비유)
    MDP = 미로의 규칙, 구조, 목표
    Bellman equation = 미로 공략법

4. living penalty

  • 에이전트가 불필요한 a(행동)을 하지 않도록 Bad Reward를 부여하는 것.
    목적지 보상의 1/1000~1/100 수준의 living penalty가 적절하다.
    living penalty가 너무 크면 목적지에 가기 전에 에이전트가 포기할 수 있음.
    living penalty가 너무 작으면 최단 경로를 찾을 수 없음.
profile
호랑이!

0개의 댓글