recoder.log
로그인
recoder.log
로그인
Q-Function
Recorder
·
2022년 4월 21일
팔로우
0
0
강화학습 Reinforcement Learning
목록 보기
6/9
State-Action Value Function
state과 action에 모두 dependent
이전까지의 value function은 state에만 dependent
현재 state s에서, action a를 취했을 때, 우리가 앞으로 얻을 최대 누적 reward 기대값 구하기
policy 대신 action 최적화 가능하다.
Bellman Equation for Q-Learning
LP formulation
policy iteration
Data-Driven PI
Recorder
기억은 나 대신 컴퓨터가
팔로우
이전 포스트
[MDP] Linear Programming
다음 포스트
[강화학습] Reinforcement Learning
0개의 댓글
댓글 작성