강화학습이란? 강화학습은 순차적인 의사 결정 문제를 해결하는 방법을 의미하며, 실세계의 다양한 문제들은 순차적인 의사 결정 문제로 정의될 수 있다. 이러한 순차적 의사 결정 문제를 해결하려고 할 때 에이전트는 하나의 목표를 갖게 되고, 목표 달
REINFORCE는 정책(행동 확률 분포)을 직접 학습하는 강화학습 알고리즘으로, 보상에 따라 행동 확률을 조정하며 최적 정책을 찾아가는 방법이다. 이때, 상태로부터 행동 확률을 도출하는 파라미터 기반의 정책을 학습하며, 에이전트는 환경 속에서 취할 행동을 이 정책으