on-policy vs off-policy

About_work·2023년 10월 4일
0

강화학습

목록 보기
6/19

정의

  • on_policy: 학습하는 policy와 행동한 policy가 반드시 같아야만 학습이 가능한 강화학습 알고리즘
  • off-policy: 학습하는 policy와 행동한 policyrk 반드시 같지 않아도 학습 가능한 알고리즘

Sarsa는 on-policy인데 Q-learning은 off-policy인 이유

Policy Optimization VS Q-learning

  • Policy Optimization
    • on-policy에서 시작
    • 직접적 policy 업데이트
  • Q-learning
    • off-policy 에서 시작
    • 간접적 policy 업데이트
profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글