[TIL] 오차 / 잔차, 손실함수/비용함수

키키·2021년 10월 22일
0

TIL

목록 보기
14/19
post-thumbnail

오차(error)

: 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이

  • ε로 표기
  • 고정요소(fixed component)확률적 요소(random component)로 분류
    • 고정요소란, 가정하는 회귀식이 변수들 사이의 참의 관계식을 반영하지 못할때 발생하는 고정 오차(fixed error)
    • 확률적 요소는 일반적으로 세가지 형태로 구분
    • 첫째로 측정오차란(measurement error) 측정하고자 하는 관찰값과, 측정도구를 적용하여 얻은 측정값의 차이
    • 이 외에도 확률적 요소로는, 모형에서 포함되어야할 설명변수의 부재로부터 일어나는 오차와, 자연 발생적으로 생겨나 통제불능한 오차(순수오차, Pure error)가 있음

<오차에 대한 가정>
1. E( εi ) = 0 고정오차가 없다는 가정
2. Var( εi ) = σ² * Ι 모든 오차는 동일한 분산을 가진다(등분산성)
3. Cov( εi, εj) = 0 오차들이 서로에게 영향을 주지 않는다(독립성)

잔차(residual)

: 표본(sample)으로부터 추정한 회귀식과 실제 관측값의 차이

  • 사실상 현상을 분석할때, 모집단의 모든 데이터를 축적하기 보다, 일부의 데이터(표본집단)에서 회귀식을 얻기 때문에, 잔차를 기준으로 회귀식의 최적의 회귀계수를 추정
  • 잔차를 기준으로 최적의 회귀모형을 찾는 방법중 가장 대표적인 방법으로 '최소제곱법(method of least square)'을 말할 수 있음

손실함수(Loss function)

: 데이터 포인트에 정의되는 함수. 예측과 라벨링에 쓰이고 페널티 측정가능.

  • data point(single data set)을 다룸
  • 데이터 하나만 봤을 때 에러

비용함수(Cost function)

: 손실함수의 합. training set에 모델 복잡성 패널티를 더해줌.

  • entire data를 다룸
  • 데이터 전체를 봤을 때 에러

추가) 목적함수(Objective fuction)

: 학습하며 최적화(optimize)해야 하는 함수

0개의 댓글