시리즈

RL

1.벨만 방정식(Bellman equation)

벨만 방정식의 유도

2021년 11월 8일

2.정책 그래디언트 (policy gradient)

정책 기반의 강화학습을 위한 정책 그래디언트를 유도 소개

2022년 4월 7일

3.A2C(Advantage Actor-Critic) 알고리즘

정책 그래디언트 기반의 강화학습 알고리즘 A2C 소개

2022년 4월 11일