Function Approximation: Intro

Human Being·2022년 11월 9일
0

Reinforcement Learning

목록 보기
15/22
post-thumbnail

ss -> f(w)f(w) -> v^(s,w)\hat v(s,w)

1.1) "매개변수화된 함수"를 사용하여 value function을 근사화하는 방법

  • v^(s,w)=w1X+w2Y\hat v(s,w) = w_1X+w_2Y : only have to store the two weights

    • weight가 변하면서 value function에 기록된 모든 값에 영향을 미친다
    • 이처럼 가중치를 매개변수처럼 넣을 수 있게 되면 매개변수화된 함수로 칭함

1.2) "Linear value function approximation" 의미

  • v^(s,w)=Σwixi(s) = <w,x(si)> = wi\hat v(s,w) = \Sigma w_ix_i(s) \ = \ <w, x(s_i)> \ = \ w_i
  • 근사값 함수를 매개변수화하는 방법은 여러 가지
  • 여기서 x(si)x(s_i)는 i번째 state만 1로 되고 나머지는 0인 1열 크기의 one-hot vector

table 형식의 경우 linear value function의 근사는 특수한 경우임


1.3) GeneralizationDiscrimination 의미

  • Generalization : 하나의 상태를 업데이트하면 다른 상태들의 value에 영향을 준다

  • Discrimination: 두 개의 다른 상태의 value를 만드는 능력

    • 장애물을 놓아서 같은 환경을 다른 환경처럼 생각하게 만든다거나
  • Category

    • high gen, low disc -> Aggregate All state
    • losw gen, high disc -> tabular methods

1.3.1. 일반화가 어떻게 도움이 되는가

  • How Generalize? is important
  • Generalization is good for faster learning

1.4) Function approximation에서 generalization, discrimination 모두 원하는 이유

1.4.1. Value & policy estimation을 supervised learning의 관점으로 볼 수 있는 방법은

  • 먼저 supervised learning을 살펴 보면, 입력값과 그에 맞는 정답이 있고 함수에 입력을 통과시켜 나온 출력과 정답 결과를 비교하여 학습해나간다.
  • 이는 MC 및 TD가 한 step 씩 진행하면서 경험을 통해 학습하는 것과 유사하다.
  • func aprox는 w에 따라서, supervised learning은 주어진 정답에 따라서 목표값/출력값이 달라진다

1.4.2) Supervised learning와 유사한 방법이 강화학습에 모두 맞진 않은 이유

  • online update & bootstrapping을 만족하는 func aprox만 된다
    • online update: 하나씩 state 정보를 얻기. (offline은 처음부터 전체 state를 받고 시작)
    • bootstrap : 값을 업데이트할 때 한 개 이상의 추정값을 사용 (이전 추정값으로 현재 추정값을 결정)

0개의 댓글