Bias-Variance Trade-off

강승구·2023년 2월 8일
0

Bias-Variance Trade-off는 Supervised learning에서 error를 처리할 때 중요하게 생각해야 하는 요소이다.

모델을 학습시킬 때, 우리의 목표는 bias와 variance가 모두 최소화되도록 하는 것이다. 그러나 일반적으로 bias와 variance는 동시에 최소화될 수 없는데, 이러한 현상을 bias-variance tradeoff라고 한다.
img

편향은 예측값이 정답과 얼마나 멀리 떨어져 있는지로 측정할 수 있고 분산은 예측값들끼리의 차이로 측정할 수 있다.

편향(Bias)

편향은 학습 알고리즘에서 잘못된 가정으로 인한 오류이다.

편향이 높으면 알고리즘이 feature(설명변수, 독립변수)와 target(종속변수)간의 관계를 놓칠 수 있고 이는 특성과 타겟변수의 관계를 잘 파악하지 못하기 때문에 under-fitting을 야기한다.

분산(Variance)

분산은 지나치게 복잡한 모델로 인한 error이다. 훈련 데이터에 지나치게 적합시키려는 모델말입니다. 따라서 분산이 크면 과적합(Over fitting)을 야기한다. 분산이 큰 모델은 훈련 데이터에 지나치게 적합을 시켜 일반화가 되지 않은 모델입니다.

img

왼쪽은 큰 편향, 작은 분산 (high bias, low variance), 오른쪽은 작은 편향, 큰 분산 (low bias, high variance)를 나타낸다.

편향은 예측 값과 실제 값의 차이로 나타낼 수 있다. 왼쪽 그래프의 예측 값과 실제 값이 차이는 오른쪽 그래프보다 크다. 오른쪽 그래프의 예측 값과 실제 값의 차이는 0이고 이는 편향이 0이라는 뜻이다.

분산은 왼쪽 그래프가 더 작다. 분산은 주어진 데이터로 학습한 모델이 예측한 값의 변동성을 뜻한다. 왼쪽 그래프는 일반화가 잘 되어 있기 때문에 예측 값이 일정한 패턴을 나타내지만 오른쪽 그래프는 들쑥날쑥하다. 이는 예측 값에 일정한 패턴이 없다는 뜻이다. 즉, 분산이 크다는 뜻이다.

편향-분산 Trade-off

imgError를 구하는 공식

첫번째 term : 편향의 제곱

두 번째 term : 분산

세 번째 term : irreducible error

마지막 error는 일상생활에서 발생할 수 있는 불가피한 error를 뜻한다.

전체 모델의 error는 이렇게 편향, 분산, 불가피한 error를 모두 합한 것과 같다.

하지만 편향과 분산 간에는 trade-off 관계가 있다.

img

모델이 복잡할수록(high model complexity) bias는 감소하고 variance는 높아지며 (over-fitting이 발생할 가능성 높음)

모델이 간단할수록(low model complexity) bias는 증가하고 variance는 낮아진다. (under-fitting이 발생할 가능성 높음)

따라서 오류를 최소화하려면 편향과 분산의 합이 최소가 되는 적당한 지점을 찾아야 한다.

profile
강승구

0개의 댓글