딥러닝 학습에 있어 가중치를 잘못 설정할 경우 기울시 소실 문제나 표현력의 한계를 갖는 등 여러 문제를 야기할 수 있기 때문에 초기 가중치 설정은 매우 중요하다.
또한 딥러닝의 학습의 문제가 non-convex이기 때문에 초기 값을 잘못 설정할 경우 local-minima에 빠질 가능성이 커진다.
convex: 볼록
초기 가중치 설정은 어떤 활성화 함수를 쓰느냐와도 연관되어있는데 요즘에는 sigmoid는 사용하지 않으니 ReLU를 알아보겠다.
ReLU에는 He 가중치 초기화 방법을 쓰는데 수식은 다음과 같다.
G는 가우스 분포 함수이고 0.0은 평균 sqrt(2/n)은 표준편차이다. n은 input 데이터의 수이다.
가중치 초기화의 목적은 초기 가중치 설정을 잘 해두어 레이어를 거치면서도 가중치들의 분포가 어느정도 유지되게끔 유도하는 것이다.
가중치 초기화 외에도 목적 달성을 위해 가중치들의 분포를 직접 정규화 하는 batch normalization도 있다.