아니다.
왜냐하면
computationally complex
degradation
보통 overfitting이라고 많이 생각하는데, 이건 아니라고 한다.
overfitting때문이라면 56-layer가 더 train error가 낮아야한다.
결국 layer가 깊어지면 학습을 잘 못하는 이유는 backpropagation이 잘안돼서 그런거다.
그리고 ReLU와 같은 Activation function을 적용하기 전에 적용하는 것을 추천하고 있습니다.
왜냐하면 배치 정규화의 목적이 네트워크 연산 결과가 원하는 방향의 분포대로 나오는 것이기 때문에 핵심 연산인 Convolution 연산 뒤에 바로 적용하여 정규화 하는 것이 핵심입니다.
즉, Activation function이 적용되어 분포가 달라지기 전에 적용하는 것이 올바릅니다. 출처