강화학습(RL, Reinforcement Learning) : 적절히 설계된 보상 체계를 활용해 에이전트가 긍정적인 행동을 할 수 있도록 에이전트 행동을 제어하는 정책을 찾아내는 최적화 기법에이전트(Agent)는 정책(Policy)에 따라 어떤 환경 (Environm
마코프 결정과정(MDP, Markov Decision Process) 은 마르코프 보상과정(MRP, Markov Reward Process)에 행동(A: Action)과 정책($\\pi$: Policy)이 추가된 개념이다.MRP의 목적 : 에피소드나 환경전체의 가치를