Q-learning

손한주·2026년 1월 2일

AI

목록 보기

1/1

에이전트(Agent)가 환경(Environment)과 상호작용하며 목표를 달성하기 위해 스스로 의사결정하는 방법을 배우는 법

변수 정의

s - State (모든 상태)

a - Action (에이전트의 행동)

R - Reward (보상)

γ (감마) - Discount(할인계수)

     = (현재 s에 대한 a의 보상+ 다음상태의 보상 * 할인계수)의 최댓값

에이전트가 불필요한 a(행동)을 하지 않도록 Bad Reward를 부여하는 것.
목적지 보상의 1/1000~1/100 수준의 living penalty가 적절하다.
living penalty가 너무 크면 목적지에 가기 전에 에이전트가 포기할 수 있음.
living penalty가 너무 작으면 최단 경로를 찾을 수 없음.

호랑이!