[Pattern Recognition] 08. Regularization

김기진·2025년 12월 22일

pattern-recognition

목록 보기

8/10

트레이드 오프
- 높은 편향, 낮은 분산: 단순한 모델은 데이터의 기본 구조를 포착하지 못할 수 있음
- 낮은 편향, 높은 분산: 복잡한 모델은 학습 데이터에만 너무 가깝게 맞춰질 수 있음

$MSE = E[(y - \hat{f}(x))^2]$
$MSE = E[(f(x) + \epsilon - \hat{f}(x))^2]$
- $= E[(f(x) - \hat{f}(x) + \epsilon)^2]$
- $= E[(f(x) - \hat{f}(x))^2 + 2\epsilon(f(x) - \hat{f}(x)) + \epsilon^2]$
- $= E[(f(x) - \hat{f}(x))^2] + 2E[\epsilon(f(x) - \hat{f}(x))] + E[\epsilon^2]$
$MSE = E[(f(x) - \hat{f}(x))^2] + \sigma^2$
$E[(f(x) - \hat{f}(x))^2] = E[(f(x) - E[\hat{f}(x)] + E[\hat{f}(x)] - \hat{f}(x))^2]$
- $= E[( (f(x) - E[\hat{f}(x)]) + (E[\hat{f}(x)] - \hat{f}(x)) )^2]$
- $= E[(f(x) - E[\hat{f}(x)])^2] + 2E[(f(x) - E[\hat{f}(x)])(E[\hat{f}(x)] - \hat{f}(x))] + E[(E[\hat{f}(x)] - \hat{f}(x))^2]$
$E[(f(x) - \hat{f}(x))^2] = (Bias[\hat{f}(x)])^2 + Var[\hat{f}(x)]$
$MSE = (Bias[\hat{f}(x)])^2 + Var[\hat{f}(x)] + \sigma^2$
- $= (\text{편향})^2 + \text{분산} + \text{줄일 수 없는 오류}$

과적합:
- 모델이 훈련 데이터의 노이즈와 변동을 너무 많이 학습
- 새로운 데이터의 일반화 성능이 저하됨
정규화:
- 모델의 복잡성을 줄임
- 보이지 않는 데이터에 더 잘 일반화 되는 모델을 만듬
정규화란 무엇인가
- 비용함수에 페널티 항을 추가하여 과도하게 복잡한 모델을 억제하여 과적합 방지
정규화 항을 포함한 비용 함수
- $J(\theta) = \text{Original Cost Function (e.g., NLL)} + \lambda \times \text{Regularization Term}$
- $\lambda$ : Regularization Term that can control penalty
- 학습 정확도: 학습 데이터에 대한 오류를 최소화
- 일반화 정확도: 큰 가중치에 패널티를 부과하여, 보이지 않는 데이터에 대한 성능을 향상

과적합과 정규화
- 과적합: 모델이 노이즈를 학습하여 일반화 성능이 저하되는 현상
- 정규화: 비용 함수에 페널티 항을 추가하여 과적합을 완화
정규화 종류
- L1: 가중치를 0으로 만들어(희소성 유도) 효과적으로 특성을 선택(특성선택)
- L2: 가중치를 0으로 만들지 않고 크기를 줄여(가중치 감소) 모델의 복잡성 균형을 맞춤(가중치 균형)