Challenge in Image Classification
Time complexity
Prediction should be fast.
Sigmoid 값은 편의상 확률처럼 해석할 수 있지만, 엄밀하게 확률이라고 할 수는 없다.
Saddle point는 최저이면서 최고점, 미분값이 어디서나 0이기 때문에 문제가 됨.
mini-batch size
Multi layers에 non-linear layers가 없다면 그냥 linear layers, 즉, 와 다를 바 없게 됨.
같은 곳에서의 forward와 backward는 항상 같은 shape을 가짐.
📙 강의