model-based: 환경이 어떻게 동작할 지 기존 지식을 활용하거나 학습해서 사용
- 기존 지식을 활용하기에 적은 양의 데이터로 학습 가능
- 모델이 있으면 planning(계획)을 할 수 있어서 좋음. action에 따라서 environment가 어떻게 바뀔지 안다면 실제로 행동하기 전에 미리 변화를 예상해보고 최적의 행동을 계획하여 실행
model-free: 환경을 블랙박스로 다룸
- 특정 환경에 대한 모델을 세우기 어려운 경우 사용
on-policy : 현재 모델로 생성한 데이터만 학습에 사용
- 단점 : policy를 한 번 업데이트할 때마다 과거 데이터를 전부 버리고 새로 모아야 함. 분산 학습 환경이라면 동기화 과정 추가되어 문제
off-policy : 과거의 모델로 생성한 데이터도 함께 학습에 사용