

기존 value estimation은 최종 return 를 통해 업데이트 되었다.

Boosttrapping하여 전개하면 시점에서의 return 로 연속된 수식이 정리된다.




DP 알고리즘은 environment 내에서 갈 수 있는 모든 경우의 수를 계산해 value를 업데이트 하였다.


이러한 알고리즘을 TD(0)라고 한다.
뒤에서 다루겠지만 parameter로 설정되는 TD()에서의 가 0일 때의 상황을 가리킨다.




Driving Home example을 생각해보자.

노드에는 각 State에 놓인 Agent가 예상하는 도착 시간이 적혀 있고, 간선에는 각 state로 이동했을 시 발생하는 실제 걸린 시간을 Reward로 설정한다.
아래 빨간색으로 적힌 시간은 첫 state에서부터 걸린 시간을 총합하여 나타낸 값이다.

MC 방식으로 업데이트하는 과정을 살펴보자.
최종 return인 는 43분이며, 와 각 state에서의 value를 빼서 업데이트 하는 과정을 볼 수 있다.






TD 방식으로 업데이트하는 과정을 살펴보자.





Episode가 끝날 때까지 기다리지 않고돌 learning을 진행할 수 있다는 점에서 차이를 가진다.




Random walk example에 대해 다뤄보자.
Policy 는 1/2의 확률 분포를 가지며 는 1로 가정한다.

아래 그림이 TD learning과 MC learning의 차이를 명확하게 보여준다.
C state에서 출발하여 맨 오른쪽 state에 도달하는 end of episode를 겪고나면, TD는 E state value만 0.75로 업데이트 되지만 MC는 C, D, E state 모두 업데이트 된다.




어떠한 learning도 이루어지지 않았을 때의 state-value는 빨간색 선과 같다.

MC와 TD의 수렴 속도 차이는 아래와 같이 보여진다.

