Representation을 학습하는데 있어 $l2$ norm을 통해 feature의 영역을 unit hypershpere으로 제한하는 것은 학습 안정성을 높이고 클래스를 적절히 분류하여 선형 분리가 가능하도록 만든다. $l2$ norm은 보편적인 방법이지만 encod