Created on January 18, 2023
※ 유추가 들어갔으므로 논리적으로 완전히 동치가 아님을 주의
출근 시간에는 Rush hour이기 때문에 '아침에서 1분'이 '낮의 10분 이상'의 가치를 가진다. 그래서 보통 몇 시에 일어나서 몇 시에 나오고 몇 시에 교통수단을 이용하는지를 결정하게 된다. 그런데 사람이다 보니, 귀차니즘이 생기기 마련이고 Sequential
한 일정이기 때문에 앞의 일정이 변경되면 새로운 Time table이 완성되어야 한다. 그래서 몇 가지 원칙만 세우고 출근을 지속적으로 하게 되는데 오늘 신기한 점을 발견하였다.
출근 Time table의 일정이 문제가 생기지 않는 마지노선으로 수렴하는 것이었다.
위와 같은 발견에 따라 아래와 같은 관찰을 도출하였다.
Greedy algorithm
으로 진행하려고 해도 Stochastic gradient descent
방식으로 균형점에 향함.(-)의 Reward
를 받아서 행동을 다음에 수정함(Reinforcement learning
적 요소).Learning rate
은 그 사람의 기질에 의해서 좌우 되는거 같으며 그에 따라 수렴속도가 결정됨.