Regularization (1)

Q·2025년 8월 25일

ML engineer

목록 보기
10/18

1. 일반화(Generalization)의 중요성

  • 딥러닝 모델의 목표는 학습 데이터뿐만 아니라, 보지 못한 새로운 데이터에서도 잘 동작하는 것 — 이를 일반화 능력이라고 한다.

  • 기대 위험(Expected Risk)E(x,y)D[(x,y)]\mathbb{E}_{(x,y)\sim D}[\ell(x,y)]를 최소화하는 것이 목표지만, 분포 D는 알 수 없기 때문에 경험 위험(Empirical Risk)1nL(xi,yi)\frac{1}{n}\sum \mathcal{L}(x_i,y_i)를 최소화하는 방식으로 접근한다.

  • Train을 통해 모델을 최적화하고, Test에서 일반화 성능을 평가하는 구조이며, 서로 다른 데이터셋을 사용해야 한다.

Training Loss

  • 정의: 학습 데이터(train set)에 대해 모델이 얼마나 잘 맞추는지 보여주는 손실 값
  • 계산 방식: 순전파 → 예측 → 실제 라벨과 비교 → 손실 함수(loss function) 값 계산
  • 의미: 모델이 학습 데이터에 얼마나 적합(fitting)하는지를 나타냅니다.
  • 특징: 학습이 진행될수록 일반적으로 감소합니다.

Validation Loss

  • 정의: 학습에 직접 사용되지 않는 검증 데이터(validation set)에 대해 계산한 손실 값
  • 계산 방식: 학습이 끝난 후, 업데이트된 파라미터로 검증 데이터에 대해 예측 → 손실 값 계산
  • 의미: 모델이 새로운 데이터(보지 못한 데이터)에 얼마나 일반화(generalization)되는지를 보여줍니다.
  • 특징: 모델이 과적합(overfitting)되면 training loss는 계속 낮아지지만, validation loss는 어느 순간 다시 증가하기 시작합니다.

2. Overfitting vs Underfitting

  • 두 가지 평가 기준
    1. Training loss를 얼마나 줄일 수 있는가
    2. Training loss와 Validation loss 간의 차이

  • Training loss는 매우 낮지만 Validation loss가 높은 경우는 과적합(overfitting), 둘 다 낮지 않으면 과소적합(underfitting)에 해당한다.

3. 모델 수용력(Capacity)과 Regularization

  • 모델의 수용력이 높을수록 복잡한 함수를 표현할 수 있지만, 너무 복잡하면 새로운 데이터에서는 성능이 낮아질 수 있다.
  • 이러한 과적합을 막기 위해 정규화(Regularization)가 필요하며 모델 복잡도를 적절히 조절해 일반화 성능을 개선하는 역할을 한다.

4. Bias–Variance Trade-off

  • 통계적 표현에서

    • Bias (편향): 예측값과 참값의 차이
    • Variance (분산): 추정값의 분산
  • 일반화 성능은 이 둘의 합—MSE—를 최소화하는 것이 중요
    MSE=Bias2+Variance\text{MSE} = \text{Bias}^2 + \text{Variance}

  • 모델이 복잡할수록 Bias는 줄지만 Variance는 커지고, 단순할수록 그 반대이므로 적절한 균형을 찾는 것이 핵심이다.

5. Regularization의 정의

  • Regularization의 세 가지를 목적
    1. Training과 Validation loss 차이 최소화
    2. Bias를 약간 희생하더라도 Variance 감소
    3. 모델의 Overfitting 완화
  • 딥러닝에서는 단순히 파라미터 수를 줄는 것보다 복잡한 규제 기법을 적용해 일반화 성능을 높인다.

6. 대표적인 Regularization 기법들

  • L1 / L2 정규화
  • Dropout
  • Batch Normalization
profile
Data Engineer

0개의 댓글