[강화학습] Stochastic Approximation

Recorder·2022년 4월 21일
0
  • 구하고자 하는 것은 아래와 같은 fixed point equation 이다.
  • 위 식을 아래와 같이 근사한다.
  • xkx_k는 기존 값
  • sks_k는 simulation으로 새로 수집한 데이터
  • αk\alpha_k는 가중치
  • HxkH_{x_k}sks_k는 상당히 다를 수도 있다.하지만 noise wkw_k가 특정 조건을 만족 할 시, fixed point 계산에는 큰 영향이 없게 된다.

Application : Bellman Equation

  • 구하고자 하는 값은 이와 같다.
  • single sample만 쓰도록 근사한다.(Robbins-Monro algorithm)

  • Stepsize와 stepdirection 형태로 나타낼 수 있다.

Contraction 수렴 조건

아래 두 조건을 만족하고, H가 contraction mapping이면, xkx_k는 fixed point xx^*로 수렴한다.

  • Stepsize 조건

    • 이유
  • noise 조건

monotonicity 수렴조건

profile
기억은 나 대신 컴퓨터가

0개의 댓글