# Temporal Differnce

1개의 포스트
post-thumbnail

Model-free RL의 기초 -1 불확실한 세계에서 가치 추산하기

강화학습 시리즈는 패스트캠퍼스 박준영 강사의 수업과 Sergey Levine의 Deep Reinforcement Learning 그리고 서튼의 강화학습 교재를 참고하여 만들어졌고 어떤 상업적 목적이 없음을 밝힙니다.우리는 지난 시간에 환경과 보상 함수에 대해 알고 있다

2022년 2월 6일
·
0개의 댓글
·