Gradient Normalization(Norm):
Gradient normalization rescales the gradients to have a fixed norm, such as unit norm or a desired norm. This can prevent the gradients from becoming too large or too small, and maintain a consistent scale across different layers or parameters. It can also help regularize the model and reduce overfitting by preventing the gradients from being dominated by a few large components.
Add & Norm에서 들어오는 두개의 Branch 필요한 이유는 vanishing or exploding gradient problem을 방지 하기 위해서 이다. 그래서 이전 블록에서 들어온 거 뿐만 아니라, 이전 블록에서 input으로 받은 것도 포함하여 2개의 브랜치가 들어오는 것 이다.