on-policy vs off-policy

About_work·2023년 10월 4일

강화학습

목록 보기

6/19

정의

on_policy: 학습하는 policy와 행동한 policy가 반드시 같아야만 학습이 가능한 강화학습 알고리즘
off-policy: 학습하는 policy와 행동한 policyrk 반드시 같지 않아도 학습 가능한 알고리즘

Sarsa는 on-policy인데 Q-learning은 off-policy인 이유

Policy Optimization VS Q-learning

Policy Optimization
- on-policy에서 시작
- 직접적 policy 업데이트
Q-learning
- off-policy 에서 시작
- 간접적 policy 업데이트

새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

이전 포스트

Temporal Difference Learning for Model Predictive Control

다음 포스트

soft actor critic 설명 및 네트워크 구조

0개의 댓글