Bias와 Variance에 대해서

jh.cin·2024년 7월 21일
0

머신러닝에서 Bias와 Variance는 모델의 성능을 평가하는 중요한 개념

Bias (편향)

Bias는 모델이 데이터의 본질적인 패턴을 제대로 학습하지 못하고, 단순화하여 예측을 하는 정도

높은 Bias를 가진 모델은 데이터의 복잡한 패턴을 잘 잡아내지 못하여 과소적합(underfitting) 현상

과소적합 (Underfitting): 모델이 너무 단순하여 데이터의 다양한 패턴을 잡아내지 못하는 현상입니다. 예를 들어, 매우 간단한 선형 모델이 복잡한 비선형 데이터를 학습하려고 할 때 발생한다.
일반적인 원인: 너무 간단한 모델, 충분하지 않은 학습 시간, 중요한 피처를 누락한 경우 등이 있다.
결과: 훈련 데이터와 테스트 데이터 모두에서 성능이 낮게 나타난다.

Variance (분산)

Variance는 모델이 훈련 데이터에 지나치게 맞추어져 있어, 새로운 데이터에 대해서는 일반화하지 못하는 정도

높은 Variance를 가진 모델은 과적합(overfitting) 현상이 발생한다.
과적합 (Overfitting): 모델이 너무 복잡하여 훈련 데이터의 잡음까지 학습해버리는 현상입니다. 예를 들어, 매우 복잡한 다항식 모델이 단순한 데이터를 학습할 때 발생한다.
일반적인 원인: 너무 복잡한 모델, 지나치게 많은 학습 시간, 데이터의 잡음 학습 등이 있다.
결과: 훈련 데이터에서는 성능이 매우 좋지만, 테스트 데이터에서는 성능이 급격히 떨어진다.

Bias-Variance Tradeoff (편향-분산 트레이드오프)

Bias와 Variance는 일반적으로 서로 반비례 관계에 있다. 즉, 하나를 줄이면 다른 하나가 증가하는 경향을 가진다. 이를 Bias-Variance Tradeoff한다.

  1. 목표: 모델을 적절하게 조정하여 Bias와 Variance 사이에서 균형을 찾는 것이 중요하다. 이는 모델이 훈련 데이터에 잘 맞추어지면서도 새로운 데이터에 대해 좋은 일반화 성능을 갖추게 하는 것.

  2. 방법: 모델의 복잡도를 조절하거나, 적절한 학습 시간과 데이터를 사용하여 모델을 최적화한다. 교차 검증과 정규화를 활용하여 모델의 성능을 평가하고 조정하는 것도 좋은 방법이다.
    요약

Bias (편향): 모델이 단순하여 데이터의 패턴을 제대로 학습하지 못하는 경우.

Variance (분산): 모델이 지나치게 복잡하여 훈련 데이터에 과적합되는 경우.

Bias-Variance Tradeoff: 모델의 일반화 성능을 최적화하기 위해 Bias와 Variance 사이에서 균형을 찾는 과정.

ex)
예측값들과 정답이 대체로 멀리 떨어져 있으면 결과의 편향(bias)이 높다고 말하고,
예측값들끼리 대체로 멀리 흩어져있으면 결과의 분산(variance)이 높다고 말한다.

profile
그냥 프로그래머

0개의 댓글