Xavier Initialization

박요셉·2022년 12월 11일

Initialization Xavier weight 가중치 초기화

CNN

목록 보기

2/3

가중치 초기화는 신경망 제작에 있어 중요하다.

첫 가중치를 무슨 값으로 하느냐에 따라 결과가 천차만별이 되기 때문이다.

가중치 설정의 중요성과 Xavier Initialization 식을 유도해보자.

가중치가 너무 작다면?

만약 가중치가 너무 작다면 발생하는 문제를 살펴보자.
예시로 사용한 구조는 500개의 neuron을 가진 10 layer 신경망이다. 활성화 함수는 tanh를 사용했다. 이를 0.01 * np.random.randh(D,H)로 초기화했다고 가정하자.

각 레이어 별 activation 정도이다.
Layer를 지나면 지날수록 mean, std가 0으로 수렴하는 것을 보인다. 이유가 무엇일까?
활성화 함수를 f라 하였을 때, 다음 layer로 넘어가는 activation은 다음과 같다.

y = f(wx + b)

여기서 w가 너무 작은 값이기에 다음 layer의 input도 아주 작은 값이 되고, 점점 지나며 0으로 수렴한다. tanh 함수는 zero-center 활성화 함수이기에 f를 통과해도 0으로 수렴하는 결과를 얻는다.

그렇다면 역전파의 경우는 어떨까?
이 경우에서는 식을 살펴보자.

\frac{dL}{dw} = \frac{dL}{df}\frac{df}{dz}\frac{dz}{dw}, z = wx+b

활성화 함수를 f, 활성화 함수 input 값을 z라 하면 다음과 같은 식을 얻는다. 여기서 $\frac{dz}{dw}=x$ 이므로

\frac{dL}{dw} = \frac{dL}{df}\frac{df}{dz}x, z = wx+b

가 된다. $x$ 가 아주 작은 값이기에 $\frac{dL}{dw}$ 도 아주 작은 값이 되어 가중치 update가 일어나지 않는다.

가중치가 너무 크다면?

가중치가 너무 큰 경우를 살펴보자. 이번에는 1.0 * np.random.randh(D,H)으로 초기화 했다고 가정하자.

Jesus! 값이 이번에는 모두 양극단으로 치우친다. 이 원인은 tanh 함수의 모양 때문이다.

여기서 보면 알 수 있듯이 tanh는 값이 크면 1에 수렴하고, 작으면 -1에 수렴한다. 앞서 $y = f(wx + b)$ 에서 $w$ 값이 크기 때문에 값이 매우 커지거나 작아진다. 즉 양 극단으로 튀는 것이다. 이 상태를 Saturated된 상태라고 하는데, 말 그대로 포화된 상태라 -1, 1 값만 나오는 것이다.