Policy Gradient Methods

HO SEUNG YOON·2024년 5월 29일

조건

policy $\pi$ 는 주어진 상태 $s \in S$ 에서 어떤 행동 $a\in A$ 을 선택할 조건부 확률
s와 a가 적다면 수기로 (s,a) 확률을 구하겠지! 그런데 대부분 possible s와 a는 굉장히 많다..
그렇다면 매개변수 $\theta$ 를 사용한 함수로 정책을 모델링하자

policy $\pi_\theta(s,a)$

목표

given policy $\pi_\theta(s,a)$
best $\theta$ 를 찾아라!
- 그런데 $\pi_\theta$ 는 어떻게 평가해? (performance measure)
  성능 지표 $J(\theta)$ https://yscho.tistory.com/114

HO SEUNG YOON

윤냠

이전 포스트

MIT 6.S191: Reinforcement Learning

다음 포스트

Policy Gradient Methods

조건

목표

MIT 6.S191: Reinforcement Learning

Natural Language Processing - Week 1

0개의 댓글