!! 여기서의 Control은
어떻게 optimal policy를 근사하는데 사용될 수 있는지 이다
몬테카를로 방법은 모델을 활용할 수 없기에 (model-free)
state value 대신
action value (state-action value)를 추정하는 것이 유용함
state-action 쌍을 마주치는 것은
곧, 하나의 에피소드에서 state s를 마주치고
그 state s에서 action a가 선택되는 것
여기서 유일한 문제는
많은 state-action 쌍에 대해 접촉이 발생하지 않을 수도 있다는 점.
policy 𝝅의 결과대로만 action을 선택하면 그에 대한 이득만 확인하게 되어
다른 action에 대한 경험을 얻지 못한다
현재 선호하는 action뿐만 아니라,
각 state로부터 선택할 수 있는 모든 action의 가치를 추정할 필요가 있다
그러므로
MC 방법의 수렴성,
즉, 모든 state-action 쌍을 무한 번 마주치는 것을
쉽게 보장받기 위해서는
있을 법하지 않은 두 가지 가정을 해야한다
있을 법하지 않은 가정이었으니
앞으로 이 가정들을 없애나갈 것이다
추정 오차의 크기와 확률이 특정 경계값보다 낮을만큼 수렴되었을 때 중단
하지만 최소 규모의 문제가 아니라면
실제 문제에 유용하게 적용하기 위해
너무 많은 에피소드를 필요로 할 수 있다
policy improvement 전에 evaluation을 완료하려는 노력을 포기하기
매번의 평가 단계에서 value function은
를 '향해' 움직이지만,
많은 단계를 거치기 전에
실제로 가까워질 것이라 기대하지 않는다
모든 action이 무한히 선택되도록 보장하는 방법 2가지
on-policy 방법의 일종
대부분의 시간동안에는 최대의 action value 추정값을 갖는 action을 선택하지만
입실론 의 확률로 이따금씩 무작위로 action을 선택하는 것을 의미한다
어떤 분포로부터 얻어진 표본이 주어질 때
그 표본을 이용하여
또 다른 분포에서의 기댓값을 추정하는 방법
target policy와 behavior policy에서 발생하는
state-action의 궤적에 대한 (=)
상대적 확률을 Importance Sampling ratio (중요도추출비율)이라 한다
이 확률에 따라 가중치를 부여하는 방식으로
off-policy에 importance sampling을 적용하겠다