
데이터 셋마다 제각기 다른 크기의 이미지를 그대로 넣으면 텐서 차원이 맞지 않아 학습•추론 자체가 불가능하다. 따라서, 사전에 모든 이미지를 동일한 크기로 맞춰야 한다.
VGG, ResNet 등 유명 모델이 정해진 크기에서 학습 되었기 때문에, 전이학습 시 입력 크기를 맞추면 가중치를 그대로 가져와 쓸 수 있다.
픽셀 값 범위(0~255)는 가중치 초기화•활성화 함수 출력보다 훨씬 크거나 작을 수 있다. 평균 0, 분산1로 스케일을 맞추면 gradient가 비슷한 범위에 머물러 가중치 업데이트가 균형 있게 이뤄지고, 학습이 더 빨리 안정적으로 수렴한다.
R, G, B 채널마다 평균 밝기•분산이 다르면 네트워크가 특정 채널(특징)에 과도하게 의존할 수 있다. 채널•특징 간 스케일 편향을 제거하면 더 일반화된 필터를 학습하게 된다.
Batch Norm 능은 입력 분포가 일정해야 효과가 극대화됩니다.