[Deep Learning] 모델의 일반화 성능을 극대화하는 Regularization (규제)

nomadicsoul·2026년 3월 25일

deeplearning

목록 보기

16/19

딥러닝 모델이 학습 데이터에서는 만점을 받는데, 실제 테스트에서는 낙제점을 받는다면? 그것은 오버피팅(Overfitting)의 늪에 빠졌기 때문입니다. 오늘은 모델의 고집을 꺾고 '범용적인 지능'을 갖게 만드는 4가지 핵심 규제(Regularization) 기법을 정리해 봅니다.

1. 정규화 & 최적화 기법 통합 로드맵

카테고리	기법	핵심 원리 및 특성	주요 위치
데이터 (Data)	Data Augmentation	데이터를 변형하여 암기 방지 및 일반화 유도	입력 단계
네트워크 구조 (Structure)	Batch Norm (BN)	층간 분포 안정화, 학습 속도 향상 및 미세 노이즈	활성화 함수 전후
	Dropout	뉴런 무작위 제거로 '동료 의존성' 파괴 (앙상블 효과)	은닉층 (주로 FC)
가중치 규제 (Weights)	L1 / L2 규제	가중치 크기를 제한하여 모델의 복잡도 직접 제어	손실 함수 (Loss)
	Elastic Net	L1(희소성)과 L2(크기 억제)를 결합한 하이브리드 규제	손실 함수 (Loss)
기울기 소실 및 폭주 제어 (Stability)	Weight Initialization	가중치 초기값을 적절히 설정하여 학습의 시작점 최적화	모델 빌드 단계
	Gradient Clipping	기울기 크기를 강제로 깎아 폭주(Exploding) 방지. RNN이나 Transformer 모델에서 필수적으로 사용.	역전파 직후
최적화 경로 (Optimizer)	Momentum	기울기 업데이트에 관성을 주어 안정적인 수렴 유도	업데이트 단계

2. 정규화 기법의 시너지와 충돌

1) L1/L2 + Dropout

같이 쓰는 이유: 드롭아웃은 '뉴런의 조합'을 규제하고, L2는 '가중치의 크기'를 규제합니다. 즉, 뉴런의 활동(Activation)과 가중치(Weight)를 동시에 억제하는 쌍끌이 전략입니다.
하이퍼파라미터 튜닝
- Grid Search: 둘을 동시에 너무 강하게 쓰면 언더피팅이 발생하므로, 하나를 강화하면 다른 하나는 조금 약화시키는 '저울질'이 필요합니다. $\lambda$ (Weight Decay)와 $p$ (Dropout Rate)는 동시에 Search Space(탐색 공간)에 넣어야 합니다.
  - Grid Search 구성 예시:
    - $p \in [0.2, 0.3, 0.4, 0.5]$
    - $\lambda \in [1e-5, 1e-4, 1e-3]$
    - 총 12가지 조합을 모두 돌려보고 최적의 '규제 밸런스'를 찾습니다.
- Bayesian Optimization (최근의 트렌드) : Grid Search는 조합이 늘어날수록 시간이 기하급수적으로 늘어납니다. 그래서 최근에는 베이지안 최적화를 더 선호합니다.
  - Search Space 설정: $p$ 는 $[0.1, 0.6]$ , $\lambda$ 는 $[1e-6, 1e-2]$ 사이의 연속적인 값으로 설정합니다.
  - 지능적 탐색: 알고리즘이 "이전 테스트에서 $p=0.3, \lambda=1e-4$ 일 때 결과가 좋았으니, 그 근처를 더 자세히 파보자!"라고 판단하며 최적값을 찾아갑니다.

2) Batch Norm + Dropout: "Variance Shift"의 공포

두 기법은 서로 통계적으로 충돌(Disharmony)할 수 있습니다. (참고: Understanding the Disharmony between Dropout and Batch Normalization, 2018)

충돌 원인: 드롭아웃은 학습 시 무작위로 뉴런을 꺼서 데이터의 분산(Variance)을 요동치게 만듭니다. 반면, BN은 데이터의 분산을 일정하게 고정하려고 합니다.
문제: 학습 때 요동치던 분산을 기억한 BN이, 테스트 때 드롭아웃이 꺼져서 분산이 안정화되면 잘못된 통계값으로 정규화를 시도합니다. 이를 'Variance Shift'라고 부릅니다.
해결책 (논문 기반)
해결 (The Disharmony Fix):
1. 순서의 정석: 반드시 같이 써야 한다면 BN -> ReLU -> Dropout 순서를 지키세요. (BN이 Dropout 뒤에 오면 통계가 꼬입니다.)
2. 위치의 정석(ResNet, MobileNet 등): 합성곱(Conv) 층에는 BN만 사용하고, 마지막에 정보를 취합하는 FC(Fully Connected) 층에만 Dropout을 쓰세요.