다음에 뭐가 일어날지 예측하는 것. (function approximation)
Q를 weight와 state의 특징벡터에 대한 함수로 생각하게 되며,
weight를 TD에러가 작아지는 방향으로 bootstrapping한 방법으로 학습시키게 됨.
TD error : 현재의 prediction이 너무 작다 / 너무 크다 / 적당하다 등의 척도를 제공
s와 a에 대한 함수 Q를 feature of s와 weights of action의 내적으로 취급해서 사용.
각 action에서 해당 feature의 기여도를 weight를 통해 제공
위에서의 linear한 케이스에서의 학습이 잘 이뤄지지 않는다는 반례를 들어줌
초기의 feature vector가 기타 조건이 아래와 같이 주어질때, weight를 업데이트 해 보자.
case1
모든 transition에 대해서 한번씩 업데이트 한다면?
weight가 수렴하지 않고 발산하게 됨.
case2
모든 weight가 0인 경우, TD 에러가 0이기 때문에 weight가 참값에 머물게됨.
결론 : shared weight는 수렴하지 않을 수도 있다...
averager란? anchbor point의 convex combination을 통해서 다른 값을 표현하는 것.
즉 Basis state set(B)에 해당하는 의 Value function의 Convex combination으로 모든 s에 대한 V(s)를 표현하겠다는 의미
주요 성질
ML에서 averager가 될 수 있는 알고리즘들
위의 결론 : whole MDP를 B(basis state set)에 대한 MDP로 바꿀 수 있다.