trial-and-error search
시행착오. 솔루션에 집중적이며, 특정 문제에 특화되있고, 환경이 정확하지 않아도 (knowledge가 적어도) 되는 특성이 있다
delayed reward
current reward만 영향을 주는것이 아니라 나중의 state, reward에도 영향을 끼친다
bias-variance tradeoff
지도 학습 알고리즘이 training set의 범위를 넘어 일반화하는것을 예방하려는 목적으로 bias(편향), variance(분산)를 최소화 할때 겪는 문제
bias
잘못된 예측치를 입력해 실제의 값과의 차이가 벌어진 값
variance
그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자
For example, for the numbers 1, 2, and 3 the mean is 2 and the variance is 0.667.
높은 분산값은 큰 노이즈까지 모델링에 포함시키는 과적합(overfitting) 문제를 발생 시킨다.
discount factor
discount factor는 얼마나 agent가 당장의 현재와 조금 먼 시간에서 리워드를 중요하게 생각하는가를 결정하는 요소. 0-1사이에 위치. 만약 0이라면, agent는 당장의 리워드를 원할것이고 1이라면 action들을 평가할때 미래 리워드의 전체 합을 생각해서 계산할것이다.
fluctuation
an irregular rising and falling in number or amount; a variation.
training data set
The “training” data set is the general term for the samples