Regularization (1)

Q·2025년 8월 25일

ML engineer

목록 보기

10/18

1. 일반화(Generalization)의 중요성

딥러닝 모델의 목표는 학습 데이터뿐만 아니라, 보지 못한 새로운 데이터에서도 잘 동작하는 것 — 이를 일반화 능력이라고 한다.
기대 위험(Expected Risk)인 $\mathbb{E}_{(x,y)\sim D}[\ell(x,y)]$ 를 최소화하는 것이 목표지만, 분포 D는 알 수 없기 때문에 경험 위험(Empirical Risk)인 $\frac{1}{n}\sum \mathcal{L}(x_i,y_i)$ 를 최소화하는 방식으로 접근한다.
Train을 통해 모델을 최적화하고, Test에서 일반화 성능을 평가하는 구조이며, 서로 다른 데이터셋을 사용해야 한다.

Training Loss

정의: 학습 데이터(train set)에 대해 모델이 얼마나 잘 맞추는지 보여주는 손실 값
계산 방식: 순전파 → 예측 → 실제 라벨과 비교 → 손실 함수(loss function) 값 계산
의미: 모델이 학습 데이터에 얼마나 적합(fitting)하는지를 나타냅니다.
특징: 학습이 진행될수록 일반적으로 감소합니다.

Validation Loss

정의: 학습에 직접 사용되지 않는 검증 데이터(validation set)에 대해 계산한 손실 값
계산 방식: 학습이 끝난 후, 업데이트된 파라미터로 검증 데이터에 대해 예측 → 손실 값 계산
의미: 모델이 새로운 데이터(보지 못한 데이터)에 얼마나 일반화(generalization)되는지를 보여줍니다.
특징: 모델이 과적합(overfitting)되면 training loss는 계속 낮아지지만, validation loss는 어느 순간 다시 증가하기 시작합니다.

2. Overfitting vs Underfitting

두 가지 평가 기준
1. Training loss를 얼마나 줄일 수 있는가
2. Training loss와 Validation loss 간의 차이
Training loss는 매우 낮지만 Validation loss가 높은 경우는 과적합(overfitting), 둘 다 낮지 않으면 과소적합(underfitting)에 해당한다.

3. 모델 수용력(Capacity)과 Regularization

모델의 수용력이 높을수록 복잡한 함수를 표현할 수 있지만, 너무 복잡하면 새로운 데이터에서는 성능이 낮아질 수 있다.
이러한 과적합을 막기 위해 정규화(Regularization)가 필요하며 모델 복잡도를 적절히 조절해 일반화 성능을 개선하는 역할을 한다.

4. Bias–Variance Trade-off

통계적 표현에서
- Bias (편향): 예측값과 참값의 차이
- Variance (분산): 추정값의 분산
일반화 성능은 이 둘의 합—MSE—를 최소화하는 것이 중요
$\text{MSE} = \text{Bias}^2 + \text{Variance}$
모델이 복잡할수록 Bias는 줄지만 Variance는 커지고, 단순할수록 그 반대이므로 적절한 균형을 찾는 것이 핵심이다.

5. Regularization의 정의

Regularization의 세 가지를 목적
1. Training과 Validation loss 차이 최소화
2. Bias를 약간 희생하더라도 Variance 감소
3. 모델의 Overfitting 완화
딥러닝에서는 단순히 파라미터 수를 줄는 것보다 복잡한 규제 기법을 적용해 일반화 성능을 높인다.

6. 대표적인 Regularization 기법들

L1 / L2 정규화
Dropout
Batch Normalization

Data Engineer

이전 포스트

CNN (3)

다음 포스트

Regularization(2)

0개의 댓글