policy π\piπ는 주어진 상태 s∈Ss \in Ss∈S에서 어떤 행동 a∈Aa\in Aa∈A을 선택할 조건부 확률 s와 a가 적다면 수기로 (s,a) 확률을 구하겠지! 그런데 대부분 possible s와 a는 굉장히 많다.. 그렇다면 매개변수 θ\thetaθ를 사용한 함수로 정책을 모델링하자