학습 과정의 가속화: 정규화는 각 레이어의 입력을 조정하여, 학습 과정을 더 빠르고 효율적으로 만듭니다. 레이어마다 입력 분포가 일정하게 유지되면, 학습률을 높일 수 있고, 이는 전체적인 학습 시간을 단축
시킵니다.
내부 공변량 변화 감소 (Internal Covariate Shift): 딥러닝 모델, 특히 심층 신경망에서 각 레이어의 입력 분포가 학습 과정 중에 변하는 현상을 '내부 공변량 변화'
라고 합니다. 정규화는 이러한 변화를 줄여
, 각 레이어가 더 안정적으로 학습될 수 있도록 도와줍니다.
그래디언트 소실/폭발 문제 완화
: 심층 신경망에서는 그래디언트가 네트워크를 통과하면서 점차 소실되거나 폭발하는 문제가 발생할 수 있습니다. 정규화는 각 레이어의 입력을 안정화시켜, 그래디언트의 효과적인 전파를 돕습니다.
일반화 능력 향상: 정규화는 모델의 과적합(overfitting)을 방지
하는 데 도움을 줄 수 있습니다. 특히, 데이터셋이 제한적일 때 정규화는 모델이 학습 데이터에 지나치게 최적화되는 것을 방지하고, 새로운 데이터에 대한 일반화 능력을 향상시킵니다.
모델 복잡도 관리: 정규화는 모델의 복잡도를 간접적으로 제어할 수 있도록 도와줍니다. 이는 모델이 데이터의 중요한 특성에 집중하도록 하여 성능을 향상시키는 데 기여합니다.
각 서브 레이어(예: 셀프 어텐션, 피드포워드 네트워크)의 입력에 적용
됩니다. 즉, 각 서브 레이어의 연산 전에 레이어 정규화가 수행
됩니다.표준 Transformer 아키텍처에 추가적인 정규화 메커니즘을 도입
합니다. 기본적으로, NormFormer는 어텐션과 피드포워드 네트워크에 대한 추가적인 레이어 정규화를 적용
합니다.어텐션 메커니즘의 출력에 적용되는 추가적인 정규화 레이어를 포함
하는 것이 특징입니다.벡터의 각 요소를 벡터의 L2 노름(유클리드 길이)으로 나누어 벡터의 길이를 1로 만드는 정규화 방법
입니다. 이는 딥러닝에서 특성 벡터를 정규화하는 데 사용됩니다.