시리즈

CS234

1.[CS234] - Lecture 2 - Given a Model of the World

Model: dynamics과 reward의 수학적 모델Policy: 주어진 state에서 action을 결정하는 함수Value function: 특정 policy를 따를 때 state 및 / 또는 action으로 인한 향후 보상Markov ProcessesMarkov

2020년 12월 27일