자유도 높으면 밸런스 망가짐 -> 학습 어려움
=> discrete action의 장점 -> 자유도 차단
15fps
기준을 세워야 될 듯
https://www.youtube.com/watch?v=eVccQ82BekI
https://www.youtube.com/watch?v=kopoLzvh5jY&feature=youtu.be
https://deepracer-school-ko.ai-castle.com/contents/s02-u04.html
처리해야 할 데이터 양과 학습 속도는 "trade-off" 관계
어느 한쪽이 이득을 얻으면 한쪽은 손해를 봐야함.
steps가 2부터 시작
5%
프레임마다 보상함수(한클럭)
closets_waypoints 중요
쓸모없는 변수 없애기?
entropy 쓸데없는 짓, 높으면 단점 학습속도 느림 장점 더 좋은 길 찾을 가능성 높음
discountfactor 미래보상을 어느정도까지 할 것인가, 정말 작게 작으면 0.5 일반적으로 0.9이상
요 2개만 건드리는 쪽으로
완주율 높은 쪽 별로 선호 안함 약간 불안정해야지 빠름