s -> f(w) -> v^(s,w)
1.1) "매개변수화된 함수"를 사용하여 value function을 근사화하는 방법
1.2) "Linear value function approximation" 의미
- v^(s,w)=Σwixi(s) = <w,x(si)> = wi
- 근사값 함수를
매개변수화하는 방법은 여러 가지
- 여기서 x(si)는 i번째 state만 1로 되고 나머지는 0인 1열 크기의 one-hot vector
table 형식의 경우 linear value function의 근사는 특수한 경우임
1.3) Generalization
과 Discrimination
의미
1.3.1. 일반화가 어떻게 도움이 되는가
- How Generalize? is important
Generalization is good for faster learning
1.4) Function approximation에서 generalization, discrimination 모두 원하는 이유
1.4.1. Value & policy estimation을 supervised learning의 관점으로 볼 수 있는 방법은
- 먼저 supervised learning을 살펴 보면,
입력값과 그에 맞는 정답
이 있고 함수에 입력을 통과시켜 나온 출력과 정답 결과를 비교하여 학습
해나간다.
- 이는 MC 및 TD가
한 step 씩 진행하면서 경험을 통해 학습
하는 것과 유사하다.
- func aprox는 w에 따라서, supervised learning은 주어진 정답에 따라서 목표값/출력값이 달라진다
1.4.2) Supervised learning와 유사한 방법이 강화학습에 모두 맞진 않은 이유
- online update & bootstrapping을 만족하는 func aprox만 된다
- online update: 하나씩 state 정보를 얻기. (offline은 처음부터 전체 state를 받고 시작)
- bootstrap : 값을 업데이트할 때 한 개 이상의 추정값을 사용 (이전 추정값으로 현재 추정값을 결정)