Temporal Difference Learning

Recorder·2022년 4월 21일

강화학습 Reinforcement Learning

목록 보기

9/9

Naive Policy Evaluation (TD(1))

bias 없음
variounce 크다

TD(0)

bias 없지 않음(TD1처럼 모다서 평균 내진 않음)
variounce(noise) 줄일 수 있다.

기억은 나 대신 컴퓨터가

이전 포스트

[강화학습] Stochastic Approximation

0개의 댓글