[TIL] 오차 / 잔차, 손실함수/비용함수

키키·2021년 10월 22일

TIL

목록 보기

14/19

: 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이

ε로 표기
고정요소(fixed component)와 확률적 요소(random component)로 분류
- 고정요소란, 가정하는 회귀식이 변수들 사이의 참의 관계식을 반영하지 못할때 발생하는 고정 오차(fixed error)
- 확률적 요소는 일반적으로 세가지 형태로 구분
- 첫째로 측정오차란(measurement error) 측정하고자 하는 관찰값과, 측정도구를 적용하여 얻은 측정값의 차이
- 이 외에도 확률적 요소로는, 모형에서 포함되어야할 설명변수의 부재로부터 일어나는 오차와, 자연 발생적으로 생겨나 통제불능한 오차(순수오차, Pure error)가 있음

<오차에 대한 가정>
1. E( εi ) = 0 고정오차가 없다는 가정
2. Var( εi ) = σ² * Ι 모든 오차는 동일한 분산을 가진다(등분산성)
3. Cov( εi, εj) = 0 오차들이 서로에게 영향을 주지 않는다(독립성)

: 표본(sample)으로부터 추정한 회귀식과 실제 관측값의 차이

사실상 현상을 분석할때, 모집단의 모든 데이터를 축적하기 보다, 일부의 데이터(표본집단)에서 회귀식을 얻기 때문에, 잔차를 기준으로 회귀식의 최적의 회귀계수를 추정
잔차를 기준으로 최적의 회귀모형을 찾는 방법중 가장 대표적인 방법으로 '최소제곱법(method of least square)'을 말할 수 있음

: 데이터 포인트에 정의되는 함수. 예측과 라벨링에 쓰이고 페널티 측정가능.

: 손실함수의 합. training set에 모델 복잡성 패널티를 더해줌.

: 학습하며 최적화(optimize)해야 하는 함수