Data Normalization은 데이터의 범위를 사용자가 원하는 범위로 제한하는 것이다.
이미지의 경우 픽셀 하나가 0 ~ 255의 값 중 하나를 갖는데 이를 255로 나누어주면 0~1 사이의 값을 갖게 될 것이다.
수식은 다음과 같다.
데이터 X가 있다고 할 때 (X-Xmin)/(Xmax-Xmin)
Normalization 하지 않을 시 왼쪽과 같은 경우가 생길 수 있다.
왼쪽의 Loss 함수는 극단적으로 왜곡된 타원형이므로 w와 b차원으로 같은 단위만큼 이동하더라도 특정 벡터 방향으로는 많이 이동하게 되므로 학습을 지그재그로 하게 된다.
반면 오른쪽 Loss 함수의 경우 Normalization 되었기 때문에 w값들의 범위와 b값들의 범위가 같으므로 SGD로 학습 시 수렴하는 속도가 훨씬 빠르다.