bshc.log
로그인
bshc.log
로그인
on-policy vs off-policy
About_work
·
2023년 10월 4일
팔로우
0
RL
model free
0
강화학습
목록 보기
6/19
정의
on_policy: 학습하는 policy와 행동한 policy가 반드시 같아야만 학습이 가능한 강화학습 알고리즘
off-policy: 학습하는 policy와 행동한 policyrk 반드시 같지 않아도 학습 가능한 알고리즘
Sarsa는 on-policy인데 Q-learning은 off-policy인 이유
Policy Optimization VS Q-learning
Policy Optimization
on-policy에서 시작
직접적 policy 업데이트
Q-learning
off-policy 에서 시작
간접적 policy 업데이트
About_work
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.
팔로우
이전 포스트
Temporal Difference Learning for Model Predictive Control
다음 포스트
soft actor critic 설명 및 네트워크 구조
0개의 댓글
댓글 작성