[cs7642] lesson 9.Generalization

mqui·2021년 7월 19일
0

강화학습 이론

목록 보기
1/1

Generalization


다음에 뭐가 일어날지 예측하는 것. (function approximation)

RL에서의 Generalization


  • policy
    • s → a
    • generalization의 목적 : 비슷한 s로 확장
  • value function
    • s(, a) → estimated return
    • generalization의 목적 : 비슷한 s / a로 확장
    • 이번 강의에서 주로 다루게 됨.
  • Model(Transition probability / Reward)
    • s, a → s'
    • 위의 두개 보다 supervised한 느낌이 강함. (s, a → s'이라는 데이터가 주어짐)
    • 의미있게 사용하기 위해선 엄청 멀리까지 내다볼 수 있는 model이 필요함(어려움)

basic update rule


Q를 weight와 state의 특징벡터에 대한 함수로 생각하게 되며,

weight를 TD에러가 작아지는 방향으로 bootstrapping한 방법으로 학습시키게 됨.

TD error : 현재의 prediction이 너무 작다 / 너무 크다 / 적당하다 등의 척도를 제공

Llinear Value Function Approximation


s와 a에 대한 함수 Q를 feature of s와 weights of action의 내적으로 취급해서 사용.

각 action에서 해당 feature의 기여도를 weight를 통해 제공

Baird's counter example


위에서의 linear한 케이스에서의 학습이 잘 이뤄지지 않는다는 반례를 들어줌

초기의 feature vector가 기타 조건이 아래와 같이 주어질때, weight를 업데이트 해 보자.

  1. reward가 없음 → value function의 참값이 모두 0
  2. deterministic한 MDP
  3. 선택할게 없음. 무조건 absorbing state인 7로 가게 됨.
  4. linear function approximation을 수행
  5. feature vector가 위와 같은 tabular 형식
  6. valid한 weight vector가 무한히 존재함.

case1

wi=1w_i = 1

모든 transition에 대해서 한번씩 업데이트 한다면?

weight가 수렴하지 않고 발산하게 됨.

case2

모든 weight가 0인 경우, TD 에러가 0이기 때문에 weight가 참값에 머물게됨.

결론 : shared weight는 수렴하지 않을 수도 있다...

averagers


averager란? anchbor point의 convex combination을 통해서 다른 값을 표현하는 것.

즉 Basis state set(B)에 해당하는 sbs_b의 Value function의 Convex combination으로 모든 s에 대한 V(s)를 표현하겠다는 의미

주요 성질

  • min V(Sb) ≤ V(S) ≤ max V(Sb) ⇒ convex combination으로 V(S)를 표현했기 때문.

ML에서 averager가 될 수 있는 알고리즘들

  • KNN
  • distance weighted
  • ...

Connection to MDP


위의 결론 : whole MDP를 B(basis state set)에 대한 MDP로 바꿀 수 있다.

profile
지혜를 얻을 수 있는 나날들이 얼마 남지 않았음을 알게 하소서

0개의 댓글