
Policy Gradient Theorem Policy Gradient Theorem은 강화학습에서 정책 파라미터에 대한 목적 함수의 그래디언트를 계산 가능한 형태로 표현한다. 이를 통해 에이전트가 환경과 상호작용하며 얻는 보상을 최대화하는 정책을 최적화할 수 있다.

REINFORCE 알고리즘은 Policy Gradient Theorem을 실제로 구현한 몬테카를로 기반의 정책 최적화 방법이다. 이 알고리즘은 실제 경험에서 얻은 데이터를 활용하여 정책 파라미터를 직접 최적화한다.REINFORCE 알고리즘은 Policy Gradient

A2C(Advantage Actor-Critic) 알고리즘은 정책 그래디언트 기법과 가치 함수 근사를 결합한 강화학습 알고리즘이다.

GAE(Generalized Advantage Estimation)는 강화학습에서 어드밴티지 함수를 효과적으로 추정하는 방법론이다.

강화학습의 핵심 과제 중 하나는 탐색(exploration)과 활용(exploitation) 사이의 적절한 균형을 찾는 것이다. 에이전트는 이미 알고 있는 좋은 전략을 활용하는 동시에, 더 나은 전략을 발견하기 위해 새로운 행동을 탐색해야 한다.

PPO(Proximal Policy Optimization) 알고리즘은 2017년 OpenAI에서 발표한 정책 최적화 알고리즘이다.

변분 자동 인코더(VAE)의 핵심적인 요소인 KL 발산(Kullback-Leibler divergence)을 이해한다.