MNIST 숫자이미지 데이터 왜 255로 나누는 걸까?
입력층 -> 은닉층(1개) -> 출력층 구조에서
bias는 가중치를 뜻하는 은 이전 뉴런들과는 연결이 안된다.(해당 층의 bias와 곱셈만 하는 것이기 때문에)
Fully-Connected Neural Network
활성화 함수
Vanishing Gradient Problem
그래서 나온 해결책이 새로운 활성화함수!
그래서 또 나온 해결책은 leaky ReLU
하지만 그렇다고 ReLU나 leaky ReLU가 궁극의 해결책은 아니다.
Exploding Grading Problem
tanh 활성화함수
Loss Function
실제 라벨값(1)에 대한 확률이 작아지면 손실함수 값이 커지니 조심해!
이다.Weight initialization 또한 하나의 중요한 파트이다.
1) 오늘 Dense Layer 혹은 NN에서 각각의 레이어마다 input 데이터 차원과 output 차원이 어떻게 돌아가는지 좀 깨달았다. 여태까지는 '앞과 뒷 레이어 간에 숫자가 달라도 되는 건가...?' 하는 막연한 궁금증이 있었는데 결론적으로 내가 가졌던 궁금증은 상관 없다는 거였다. 그냥 내 마음대로 뉴런 내 파라미터(?) 수를 조절하는 거였고, 사실 그만큼 모델이 복잡해지고 하는 것이기 때문에 그 숫자는 앞뒤 레이어간 상관 없이 적는 것도 있다는 걸 깨달았다.