[Pattern Recognition] 08. Regularization

김기진·2025년 12월 22일

pattern-recognition

목록 보기
8/10

과적합과 과소적합

  • 과적합

    • 모델이 훈련 데이터의 노이즈와 세부사항까지 너무 많이 학습
    • 높은 분산, 낮은 편차
  • 과소적합

    • 모델이 너무 단순하여 데이터의 근본적인 패턴을 포착하지 못함
    • 낮은 분산, 높은 편차
  • 트레이드 오프
    • 높은 편향, 낮은 분산: 단순한 모델은 데이터의 기본 구조를 포착하지 못할 수 있음
    • 낮은 편향, 높은 분산: 복잡한 모델은 학습 데이터에만 너무 가깝게 맞춰질 수 있음

MSE 의 편향-분산 분해

  • MSE=E[(yf^(x))2]MSE = E[(y - \hat{f}(x))^2]

  • MSE=E[(f(x)+ϵf^(x))2]MSE = E[(f(x) + \epsilon - \hat{f}(x))^2]

    • =E[(f(x)f^(x)+ϵ)2]= E[(f(x) - \hat{f}(x) + \epsilon)^2]
    • =E[(f(x)f^(x))2+2ϵ(f(x)f^(x))+ϵ2]= E[(f(x) - \hat{f}(x))^2 + 2\epsilon(f(x) - \hat{f}(x)) + \epsilon^2]
    • =E[(f(x)f^(x))2]+2E[ϵ(f(x)f^(x))]+E[ϵ2]= E[(f(x) - \hat{f}(x))^2] + 2E[\epsilon(f(x) - \hat{f}(x))] + E[\epsilon^2]
  • MSE=E[(f(x)f^(x))2]+σ2MSE = E[(f(x) - \hat{f}(x))^2] + \sigma^2

  • E[(f(x)f^(x))2]=E[(f(x)E[f^(x)]+E[f^(x)]f^(x))2]E[(f(x) - \hat{f}(x))^2] = E[(f(x) - E[\hat{f}(x)] + E[\hat{f}(x)] - \hat{f}(x))^2]

    • =E[((f(x)E[f^(x)])+(E[f^(x)]f^(x)))2]= E[( (f(x) - E[\hat{f}(x)]) + (E[\hat{f}(x)] - \hat{f}(x)) )^2]
    • =E[(f(x)E[f^(x)])2]+2E[(f(x)E[f^(x)])(E[f^(x)]f^(x))]+E[(E[f^(x)]f^(x))2]= E[(f(x) - E[\hat{f}(x)])^2] + 2E[(f(x) - E[\hat{f}(x)])(E[\hat{f}(x)] - \hat{f}(x))] + E[(E[\hat{f}(x)] - \hat{f}(x))^2]
  • E[(f(x)f^(x))2]=(Bias[f^(x)])2+Var[f^(x)]E[(f(x) - \hat{f}(x))^2] = (Bias[\hat{f}(x)])^2 + Var[\hat{f}(x)]

  • MSE=(Bias[f^(x)])2+Var[f^(x)]+σ2MSE = (Bias[\hat{f}(x)])^2 + Var[\hat{f}(x)] + \sigma^2

    • =(편향)2+분산+줄일 수 없는 오류= (\text{편향})^2 + \text{분산} + \text{줄일 수 없는 오류}

정규화

  • 과적합:

    • 모델이 훈련 데이터의 노이즈와 변동을 너무 많이 학습
    • 새로운 데이터의 일반화 성능이 저하됨
  • 정규화:

    • 모델의 복잡성을 줄임
    • 보이지 않는 데이터에 더 잘 일반화 되는 모델을 만듬
  • 정규화란 무엇인가

    • 비용함수에 페널티 항을 추가하여 과도하게 복잡한 모델을 억제하여 과적합 방지
  • 정규화 항을 포함한 비용 함수

    • J(θ)=Original Cost Function (e.g., NLL)+λ×Regularization TermJ(\theta) = \text{Original Cost Function (e.g., NLL)} + \lambda \times \text{Regularization Term}
    • λ\lambda: Regularization Term that can control penalty
    • 학습 정확도: 학습 데이터에 대한 오류를 최소화
    • 일반화 정확도: 큰 가중치에 패널티를 부과하여, 보이지 않는 데이터에 대한 성능을 향상

L1 정규화

  • L1 정규화
    • 패널티:
      • 가중치 합의 절댓값을 비용 함수에 추가
    • 비용함수
      • J(θ)=Original Cost+λj=1nθjJ(\theta) = \text{Original Cost} + \lambda \sum_{j=1}^{n} |\theta_j|
    • 효과
      • 일부 가중치를 0 으로 만들어 특성을 효과적으로 제거함
      • 모델의 희소성을 촉진하여 특징 선택을 장려
    • 업데이트 규칙
      • wλw=λsign(w)\frac{\partial}{\partial w} \lambda |w| = \lambda \cdot \text{sign}(w)
      • (여기서 sign(w)={1w>01w<0\text{sign}(w) = \begin{cases} 1 & w > 0 \\ -1 & w < 0 \end{cases})

L2 정규화

  • L2 정규화
    • 패널티
      • 가중치 제곱의 합을 비용 함수에 추가
    • 비용 함수
      • J(θ)=Original Cost+λj=1nθj2J(\theta) = \text{Original Cost} + \lambda \sum_{j=1}^{n} \theta_j^2
    • 효과
      • 가중치를 0으로 만들지는 않으면서 가중치를 축소
      • 큰 가중치를 축소시켜 과적합의 위험을 줄임
      • 이는 더 큰 가중치의 영향을 줄이고 모델을 일반화하는 데 도움
      • 가중치 감쇠가 빠름
    • 업데이트 규칙
      • w(λw2)=2λw\frac{\partial}{\partial w} \left(\lambda w^2 \right) = 2\lambda w
      • θj+1=θjα(J(θ)θi+2λθi)\theta_{j+1} = \theta_j - \alpha(\frac{\partial J(\theta)}{\partial \theta_i} + 2\lambda\theta_i)

L1, L2 정규화의 전역 최저점

  • 타원형 등고선: 원래 비용함수의 등고선. 중앙은 비용함수의 최솟값임

  • 패널티 영역: 정규화항에 의해 정의된 제약 조건 영역

  • L1 정규화

    • 패널티 영역: 마름모
    • 특성
      • 기하학 적으로 등고선이 패널티 영역과 만나는 지점이 축 위에 있는 경향이 있음
      • 희소성을 유도하여 특성 선택이라는 효과를 얻음
      1. 희소성 유도
      2. 특성 선택
  • L2 정규화

    • 페널티 영역: 원 형태
    • 특성
      • 기하학 적으로 등고선이 패널티 영역과 만나는 지점이 축 위에 있지 않는 경향이 있음
      1. 가중치 감쇠
      2. 가중치 균형

요약

  • 과적합과 정규화

    • 과적합: 모델이 노이즈를 학습하여 일반화 성능이 저하되는 현상
    • 정규화: 비용 함수에 페널티 항을 추가하여 과적합을 완화
  • 정규화 종류

    • L1: 가중치를 0으로 만들어(희소성 유도) 효과적으로 특성을 선택(특성선택)
    • L2: 가중치를 0으로 만들지 않고 크기를 줄여(가중치 감소) 모델의 복잡성 균형을 맞춤(가중치 균형)

0개의 댓글