Deepracer

이종욱·2023년 9월 2일

자유도 높으면 밸런스 망가짐 -> 학습 어려움
=> discrete action의 장점 -> 자유도 차단

15fps

처리해야 할 데이터 양과 학습 속도는 "trade-off" 관계
어느 한쪽이 이득을 얻으면 한쪽은 손해를 봐야함.

steps가 2부터 시작
5%

프레임마다 보상함수(한클럭)

closets_waypoints 중요
쓸모없는 변수 없애기?

entropy 쓸데없는 짓, 높으면 단점 학습속도 느림 장점 더 좋은 길 찾을 가능성 높음
discountfactor 미래보상을 어느정도까지 할 것인가, 정말 작게 작으면 0.5 일반적으로 0.9이상
요 2개만 건드리는 쪽으로

완주율 높은 쪽 별로 선호 안함 약간 불안정해야지 빠름

알고리즘 정리

안녕하세요!