Temporal Difference Learning

recoder·2022년 4월 21일
0

Naive Policy Evaluation (TD(1))

  • bias 없음
  • variounce 크다

TD(0)

  • bias 없지 않음(TD1처럼 모다서 평균 내진 않음)
  • variounce(noise) 줄일 수 있다.
profile
기억은 나 대신 컴퓨터가

0개의 댓글