recoder.log
로그인
recoder.log
로그인
Temporal Difference Learning
Recorder
·
2022년 4월 21일
팔로우
0
0
강화학습 Reinforcement Learning
목록 보기
9/9
Naive Policy Evaluation (TD(1))
bias 없음
variounce 크다
TD(0)
bias 없지 않음(TD1처럼 모다서 평균 내진 않음)
variounce(noise) 줄일 수 있다.
Recorder
기억은 나 대신 컴퓨터가
팔로우
이전 포스트
[강화학습] Stochastic Approximation
0개의 댓글
댓글 작성