kimturing.log
로그인
kimturing.log
로그인
Why Layer Normalization?
Junseong Park
·
2024년 9월 2일
팔로우
0
TIL
목록 보기
6/7
Batch Normalization
Batch 내의 데이터에 대한 통계를 구하기 때문에 순서에 대한 정보를 고려하지 않는다.
Batch 내의 데이터 중에 padding이 있을 수 있다. (포함해서 통계를 구하면 무의미하다.)
Layer Normalization
반면에 LayerNorm은 토큰 단위로 정규화가 일어나서 순서에 대한 정보를 침범하지 않을 수 있다.
Junseong Park
부스트캠프 AI Tech 7기
팔로우
이전 포스트
제발 nn.Embedding은 사드세요
다음 포스트
TIL 0903
0개의 댓글
댓글 작성