가중치 초기화(Weight initialization)

이승규·2024년 7월 25일

Deep Learning[공부용]

목록 보기

9/10

여기서 의문..

Q) 가중치의 초깃값을 모두 0으로 설정하면 어떻게 될까?

그 이유는 :

그림의 계산 과정을 보면 이해하는데 도움이 된다.

→ 따라서 우리는 가중치 초깃값을 무작위로 설정해야한다.!!

기본 아이디어

Xavier Initialization의 기본 아이디어는 각 층의 입력과 출력의 분산을 균형 있게 유지하여, 신경망의 각 층에서 신호가 너무 커지거나 작아지지 않도록 하는 것이다.
이를 위해서 이전 layer의 뉴런 개수와 다음 layer의 뉴런 개수를 이용하여 가중치를 초기화한다.

수식

1) 정규분포(Gaussian distribution):

2) 균등 분포(Uniform distribution):

정리

Xavier Initialization는 여러 층의 기울기 분산 사이에 균형을 맞춰서 특정 층이 너무 주목을 받거나 다른 층이 뒤쳐지는 것을 막는다.
Xavier Initialization는 시그모이드 함수나 하이퍼볼릭 탄젠트 함수와 같은 S자 형태인 활성화 함수와 함께 사용할 경우에는 좋은 성능을 보이지만,
RELU 함수와 함께 사용할 경우에는 성능이 좋지 않다.

기본 아이디어

ReLU 에 특화된 초기값이다. (Xavier Initialization에서는 ReLU 함수를 사용할때 비효율적)
He 초기화는 Xavier Initialization과 다르게 다음층의 뉴런의 수를 반영하지 않고, 이전 layer의 뉴런수를 이용한다. ex) 앞 계층의 노드가 n개일때, 표준편차가 \sqrt{\frac{2}{n_{\text{in}}}} 정규분포를 사용한다.

수식

He 초기화는 가중치를 다음과 같은 방식으로 초기화한다.