시리즈

의역

1.[의역] 강화학습 Policy Gradient 직관적인 설명 (1 / 2 )

기존 설명의 문제점 최근에 꽤나 성공적인 강화학습 알고리즘은 Policy-Gradient이라는 알고지즘 패밀리에 속합니다. A3c, TRPO, PPO...등이 있겠네요. 정확히는 actor-critic 알고리즘 패밀리에 속합니다. 찐 강화학습 팬이라면 policy gr

2022년 1월 22일