강화학습

1.Policy Gradient Theorem

post-thumbnail

2.REINFORCE 알고리즘

post-thumbnail

3.A2C 알고리즘

post-thumbnail

4.GAE

post-thumbnail

5.엔트로피 정규화

post-thumbnail

6.PPO 알고리즘

post-thumbnail

7.두 정규분포 N(μ, σ²)와 N(0, 1) 사이의 KL 발산 유도

post-thumbnail