시리즈

강화학습

1.Policy Gradient Theorem

Policy Gradient Theorem Policy Gradient Theorem은 강화학습에서 정책 파라미터에 대한 목적 함수의 그래디언트를 계산 가능한 형태로 표현한다. 이를 통해 에이전트가 환경과 상호작용하며 얻는 보상을 최대화하는 정책을 최적화할 수 있다.

2025년 4월 14일

2.REINFORCE 알고리즘

REINFORCE 알고리즘은 Policy Gradient Theorem을 실제로 구현한 몬테카를로 기반의 정책 최적화 방법이다. 이 알고리즘은 실제 경험에서 얻은 데이터를 활용하여 정책 파라미터를 직접 최적화한다.REINFORCE 알고리즘은 Policy Gradient

2025년 4월 14일

3.A2C 알고리즘

A2C(Advantage Actor-Critic) 알고리즘은 정책 그래디언트 기법과 가치 함수 근사를 결합한 강화학습 알고리즘이다.

2025년 4월 28일

4.GAE

GAE(Generalized Advantage Estimation)는 강화학습에서 어드밴티지 함수를 효과적으로 추정하는 방법론이다.

2025년 4월 28일

강화학습

1.Policy Gradient Theorem

2.REINFORCE 알고리즘

3.A2C 알고리즘

4.GAE

5.엔트로피 정규화

6.PPO 알고리즘

7.두 정규분포 N(μ, σ²)와 N(0, 1) 사이의 KL 발산 유도