
서울 강남의 아파트 가격을 예측하는 모델을 만든다고 합시다.
# 너무 단순한 모델
가격 = 0.5 * 평수이 모델은 평수만 고려하고 다른 중요한 변수들(지하철역과의 거리, 건물 연식, 학군 등)을 무시합니다. 따라서 예측값이 실제값과 큰 차이를 보입니다.# 너무 복잡한 모델
가격 = a * 평수³ + b * 평수² + c * 평수 + d * 층수³ + e * 층수² + f * 층수
+ g * 역세권_점수³ + h * 역세권_점수² + i * 역세권_점수
+ j * (평수 * 층수 * 역세권_점수)이 모델은 너무 많은 고차항을 포함하고 있어서, 학습 데이터의 작은 변화에도 예측값이 크게 달라집니다.낮은 편향, 높은 분산 모델:
높은 편향, 낮은 분산 모델:
# 적절한 복잡도의 모델
가격 = a * 평수 + b * 층수 + c * 역세권_점수
+ d * (평수 * 역세권_점수) + e * 건물_연식
이 모델은:
이러한 모델은:
실제 적용할 때의 팁:
1. 교차 검증을 통해 편향과 분산을 모니터링하세요
2. 특성 선택을 신중히 하되, 너무 많은 특성은 피하세요
3. 정규화(Regularization)를 통해 과적합을 방지하세요
편향과 분산의 적절한 균형을 찾는 방법
초기상태: 높은 분산
초기상태: 높은 편향
이런 방법들을 상황에 맞게 조합하여 사용하면 좋은 균형을 찾을 수 있습니다. 특히 중요한 것은 점진적인 접근과 각 변경사항의 효과를 측정하는 것입니다.