딥러닝을 학습할 시 가중치 초기화는 매우 중요하다. 가중치 초기화를 어떻게 하느냐에 따라 local minimum, 경사 소실,폭발 등 예방할 수 있다.
가중치를 정규분포를 따르도록 설정하는 것은 좋은 방법이다. 하지만 편차에 따라서 경사 소실(gradient descent), 표현력 제한(zero-initiation과 같이 뉴런들의 값이 비슷한 값을 갖는것) 같은 문제가 생길 수 있다.
tanh,sigmoid함수를 활성화 함수로 사용할때 주로 사용한다. 이전 layer의 s뉴런의 수가 n개 라면 표준편차가 1/n**(1/2)인 분포를 사용한다
relu 함수에 최적화된 초기화 방법, 표준편차가 2/n**(1/2)인 분포를 사용.
xavier보다 분포가 넓어 기울기가 0이되는 출력값을 줄이는 효과가 있다.