개념
예시
어떤 층의 출력이 [10, 20, 30, 40]이라면, 평균=25, 표준편차≈11.18
BatchNorm 적용 x^i=xi−μσ\hat{x}_i = \frac{x_i - \mu}{\sigma}x^i=σxi−μ → [-1.34, -0.45, 0.45, 1.34]
이후 학습 가능한 파라미터 γ\gammaγ, β\betaβ를 통해 다시 스케일 조정. yi=γx^i+βy_i = \gamma \hat{x}_i + \betayi=γx^i+β