ch1 용어정리

Eunice Kang·2021년 5월 7일
0
  • trial-and-error search
    시행착오. 솔루션에 집중적이며, 특정 문제에 특화되있고, 환경이 정확하지 않아도 (knowledge가 적어도) 되는 특성이 있다

  • delayed reward
    current reward만 영향을 주는것이 아니라 나중의 state, reward에도 영향을 끼친다

  • bias-variance tradeoff
    지도 학습 알고리즘이 training set의 범위를 넘어 일반화하는것을 예방하려는 목적으로 bias(편향), variance(분산)를 최소화 할때 겪는 문제

  • bias
    잘못된 예측치를 입력해 실제의 값과의 차이가 벌어진 값

  • variance
    그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자
    For example, for the numbers 1, 2, and 3 the mean is 2 and the variance is 0.667.
    높은 분산값은 큰 노이즈까지 모델링에 포함시키는 과적합(overfitting) 문제를 발생 시킨다.

  • discount factor
    discount factor는 얼마나 agent가 당장의 현재와 조금 먼 시간에서 리워드를 중요하게 생각하는가를 결정하는 요소. 0-1사이에 위치. 만약 0이라면, agent는 당장의 리워드를 원할것이고 1이라면 action들을 평가할때 미래 리워드의 전체 합을 생각해서 계산할것이다.

  • fluctuation
    an irregular rising and falling in number or amount; a variation.

  • training data set
    The “training” data set is the general term for the samples

0개의 댓글