Overfitting 과 Underfitting

dj_·2024년 9월 6일

Overfitting & Underfitting

overfitting, underfitting은 데이터 분포와 모델의 복잡도관점에서 아래와 같이 설명할 수 있습니다.

Overfitting : 모델의 복잡도 > 데이터 분포
Underfitting : 모델의 복잡도 < 데이터 분포

데이터에 비해 모델이 복잡해서 데이터에 대한 패턴을 학습한 것이 아니라, 학습 데이터에만 맞게 모델이 학습된 현상을 overfitting이라고 하고, 모델의 복잡도가 낮아 데이터의 패턴을 제대로 학습하지 못한 현상을 underfitting이라고 합니다.
ploynomial regression 모델을 학습한 경우를 예시로 들 수 있습니다.

그림처럼 polynomial regression의 차원이 낮아 데이터 분포를 제대로 나타내지 못하는 경우를 underfitting, 차원이 너무 높아 학습 데이터를 외우고 있는 경우를 overfitting이라 합니다.

Bias & Variance

overfitting과 underfitting은 모델의 복잡도 관점에서 bias와 variance와도 관련이 있습니다.

Bias: 모델 예측값과 정답간의 차이의 평균
Variance: 모델 예측값 평균과 각 예측값들의 차이의 제곱

즉, bias는 예측값이 실제 정답과 얼마나 떨어져 있는가를 나타내고, variance는 분산의 본래 의미와 같이 예측값이 얼마나 변화할 수 있는 지를 나타냅니다.

다트 게임을 예시로 들겠습니다. 아시다시피 빨간색 가운데 위치에 다트를 던지는 것이 좋은 게임입니다.
1. Low Bias & Low Variance: 다트를 정답 위치에 잘 넣고 있으며, 에임도 좋습니다.
2. Low Bias & High Variance: 다트를 정답를 포함해 근처로 잘 넣고 있지만, 에임은 좋지 않습니다.
3. High Bias & Low Variance: 에임은 좋지만, 정답 위치와는 모두 거리가 있습니다.
4. High Bias & High Variance: 에임도 안좋고, 정답 위치와도 모두 거리가 있습니다.

이러한 Bias, Variance는 모델의 복잡도와도 연관이 있기 때문에 overfitting, underfitting 현상과도 함께 설명할 수 있습니다.

진한 파란 색의 line은 데이터를 나타냅니다. 해당 데이터에서 train sample들을 랜덤으로 추출해서 각각 linear regression 모델과 4차원의 polynomial regression 모델을 학습한 결과가 하늘색 line입니다.

linear regression의 경우 대부분의 경우 정답 line과는 다른 값을 내뱉는 line이 그려지지만, polynomial과 달리 같은 x값에 대해 대부분 비슷한 y값을 뱉습니다. 즉, bias는 높지만 variance는 낮습니다.
polynomial regression의 경우 몇몇 line은 정답 line과 거의 일치하는 형태로 학습되지만, 같은 x값에 대해 y값의 편차가 linear보다 큽니다. 즉, bias는 낮지만 variance는 높습니다.

정리해보면 아래와 같습니다.
1. 데이터에 비해 모델의 복잡도가 떨어진다면, bias는 높고 variance는 낮은 상태로 학습될 것이고 이러한 상태를 underfitting이라고 합니다.
2. 데이터에 비해 모델의 복잡도가 높다면, bias는 낮고 variance는 높은 상태로 학습될 것이고 이러한 상태를 overfitting이라고 합니다.