오차(error)
: 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이
- ε로 표기
- 고정요소(fixed component)와 확률적 요소(random component)로 분류
- 고정요소란, 가정하는 회귀식이 변수들 사이의 참의 관계식을 반영하지 못할때 발생하는 고정 오차(fixed error)
- 확률적 요소는 일반적으로 세가지 형태로 구분
- 첫째로 측정오차란(measurement error) 측정하고자 하는 관찰값과, 측정도구를 적용하여 얻은 측정값의 차이
- 이 외에도 확률적 요소로는, 모형에서 포함되어야할 설명변수의 부재로부터 일어나는 오차와, 자연 발생적으로 생겨나 통제불능한 오차(순수오차, Pure error)가 있음
<오차에 대한 가정>
1. E( εi ) = 0 고정오차가 없다는 가정
2. Var( εi ) = σ² * Ι 모든 오차는 동일한 분산을 가진다(등분산성)
3. Cov( εi, εj) = 0 오차들이 서로에게 영향을 주지 않는다(독립성)
잔차(residual)
: 표본(sample)으로부터 추정한 회귀식과 실제 관측값의 차이
- 사실상 현상을 분석할때, 모집단의 모든 데이터를 축적하기 보다, 일부의 데이터(표본집단)에서 회귀식을 얻기 때문에, 잔차를 기준으로 회귀식의 최적의 회귀계수를 추정
- 잔차를 기준으로 최적의 회귀모형을 찾는 방법중 가장 대표적인 방법으로 '최소제곱법(method of least square)'을 말할 수 있음
손실함수(Loss function)
: 데이터 포인트에 정의되는 함수. 예측과 라벨링에 쓰이고 페널티 측정가능.
- data point(single data set)을 다룸
- 데이터 하나만 봤을 때 에러
비용함수(Cost function)
: 손실함수의 합. training set에 모델 복잡성 패널티를 더해줌.
- entire data를 다룸
- 데이터 전체를 봤을 때 에러
추가) 목적함수(Objective fuction)
: 학습하며 최적화(optimize)해야 하는 함수