bshc.log
로그인
bshc.log
로그인
temporal difference learning
About_work
·
2024년 1월 5일
팔로우
0
0
강화학습
목록 보기
18/19
예측과 실제의 차이 (TD 오류)
: TD 오류는 현재 상태의 가치 예측과 다음 상태의 가치 예측 사이의 차이입니다. 이 오류는 학습 과정에서 가치 함수를 업데이트하는 데 사용됩니다.
가치 함수의 업데이트
: TD 학습은 예측 가치와 실제로 얻은 보상 및 다음 상태의 가치를 비교하여 현재 상태의 가치 함수를 업데이트합니다. 이 과정을 통해 에이전트는 보다 정확한 가치 예측을 할 수 있게 됩니다.
About_work
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.
팔로우
이전 포스트
PlaNet(Learning Latent Dynamics for Planning from Pixels)
다음 포스트
RLHF(RL with Human Feedback)
0개의 댓글
댓글 작성