초기화가 중요한 이유와 딥러닝에서 꼭 알아야 할 He 초기화

Bean·2025년 5월 15일

인공지능

목록 보기

30/134

딥러닝에서 네트워크 파라미터 초기화는 학습 성능에 큰 영향을 미치는 핵심 요소입니다. 특히, He 초기화(He Initialization)는 ReLU 활성화 함수를 사용할 때 매우 효과적인 초기화 방법입니다.

딥러닝 모델에서 학습은 파라미터(W, b)를 업데이트하면서 손실을 줄여가는 과정입니다.
이때, 파라미터의 초기값이 잘못 설정되면 다음과 같은 문제가 생깁니다:

즉, 초기화는 학습을 시작하는 기반이며, 빠르고 안정적인 학습을 위한 기본 조건입니다.

너무 단순해서 실제로는 잘 쓰이지 않음. 예를 들어 W ~ N(0, 1)처럼.

W \sim \mathcal{N}\left(0, \frac{1}{n_{\text{in}}}\right) \quad \text{또는} \quad \mathcal{N}\left(0, \frac{2}{n_{\text{in}} + n_{\text{out}}}\right)

W \sim \mathcal{N}\left(0, \frac{2}{n_{\text{in}}} \right)

또는

W \sim \text{Uniform}\left(-\sqrt{\frac{6}{n_{\text{in}}}}, \sqrt{\frac{6}{n_{\text{in}}}} \right)

import torch.nn as nn
import torch.nn.init as init

layer = nn.Linear(128, 64)
init.kaiming_normal_(layer.weight, nonlinearity='relu')  # He 초기화

또는 Keras에서는 이렇게:

from tensorflow.keras.layers import Dense
from tensorflow.keras.initializers import HeNormal

Dense(64, kernel_initializer=HeNormal())

초기화 방법	주로 사용하는 활성화 함수	수식	특징
Random	없음	N(0, 1) 등	비효율적, 비추천
Xavier	tanh, sigmoid	N(0, 1 / n)	평균적 분산 유지
He	ReLU 계열	N(0, 2 / n)	ReLU에 최적, 널리 사용

AI developer