Why Layer Normalization?

Junseong Park·2024년 9월 2일

TIL

목록 보기
6/7
  • Batch Normalization
    • Batch 내의 데이터에 대한 통계를 구하기 때문에 순서에 대한 정보를 고려하지 않는다.
    • Batch 내의 데이터 중에 padding이 있을 수 있다. (포함해서 통계를 구하면 무의미하다.)
  • Layer Normalization
    • 반면에 LayerNorm은 토큰 단위로 정규화가 일어나서 순서에 대한 정보를 침범하지 않을 수 있다.
profile
부스트캠프 AI Tech 7기

0개의 댓글