Policy Gradient Methods

HO SEUNG YOON·2024년 5월 29일

조건

policy π\pi는 주어진 상태 sSs \in S에서 어떤 행동 aAa\in A을 선택할 조건부 확률
s와 a가 적다면 수기로 (s,a) 확률을 구하겠지! 그런데 대부분 possible s와 a는 굉장히 많다..
그렇다면 매개변수 θ\theta를 사용한 함수로 정책을 모델링하자

  • policy πθ(s,a)\pi_\theta(s,a)

목표

  • given policy πθ(s,a)\pi_\theta(s,a)
    best θ\theta를 찾아라!

0개의 댓글