머신러닝에서 Bias와 Variance는 모델의 성능을 평가하는 중요한 개념
Bias는 모델이 데이터의 본질적인 패턴을 제대로 학습하지 못하고, 단순화하여 예측을 하는 정도
높은 Bias를 가진 모델은 데이터의 복잡한 패턴을 잘 잡아내지 못하여 과소적합(underfitting) 현상
과소적합 (Underfitting): 모델이 너무 단순하여 데이터의 다양한 패턴을 잡아내지 못하는 현상입니다. 예를 들어, 매우 간단한 선형 모델이 복잡한 비선형 데이터를 학습하려고 할 때 발생한다.
일반적인 원인: 너무 간단한 모델, 충분하지 않은 학습 시간, 중요한 피처를 누락한 경우 등이 있다.
결과: 훈련 데이터와 테스트 데이터 모두에서 성능이 낮게 나타난다.
Variance는 모델이 훈련 데이터에 지나치게 맞추어져 있어, 새로운 데이터에 대해서는 일반화하지 못하는 정도
높은 Variance를 가진 모델은 과적합(overfitting) 현상이 발생한다.
과적합 (Overfitting): 모델이 너무 복잡하여 훈련 데이터의 잡음까지 학습해버리는 현상입니다. 예를 들어, 매우 복잡한 다항식 모델이 단순한 데이터를 학습할 때 발생한다.
일반적인 원인: 너무 복잡한 모델, 지나치게 많은 학습 시간, 데이터의 잡음 학습 등이 있다.
결과: 훈련 데이터에서는 성능이 매우 좋지만, 테스트 데이터에서는 성능이 급격히 떨어진다.
Bias와 Variance는 일반적으로 서로 반비례 관계에 있다. 즉, 하나를 줄이면 다른 하나가 증가하는 경향을 가진다. 이를 Bias-Variance Tradeoff한다.
목표: 모델을 적절하게 조정하여 Bias와 Variance 사이에서 균형을 찾는 것이 중요하다. 이는 모델이 훈련 데이터에 잘 맞추어지면서도 새로운 데이터에 대해 좋은 일반화 성능을 갖추게 하는 것.
방법: 모델의 복잡도를 조절하거나, 적절한 학습 시간과 데이터를 사용하여 모델을 최적화한다. 교차 검증과 정규화를 활용하여 모델의 성능을 평가하고 조정하는 것도 좋은 방법이다.
요약
Bias (편향): 모델이 단순하여 데이터의 패턴을 제대로 학습하지 못하는 경우.
Variance (분산): 모델이 지나치게 복잡하여 훈련 데이터에 과적합되는 경우.
Bias-Variance Tradeoff: 모델의 일반화 성능을 최적화하기 위해 Bias와 Variance 사이에서 균형을 찾는 과정.
ex)
예측값들과 정답이 대체로 멀리 떨어져 있으면 결과의 편향(bias)이 높다고 말하고,
예측값들끼리 대체로 멀리 흩어져있으면 결과의 분산(variance)이 높다고 말한다.