





- extreme classification
- sample softmax
- user vector가 video vector의 임베딩 크기보다 훨씬 크다.
- 두 벡터의 크기가 다르므로 유사도를 구할때 user의 정보에 치우친다.
- 아이템의 다양한 정보에 대한 내용이 부족하다.


- NLP에서 다음문장 예측에서 먼저 쓰임.
- 추천 시스템에서는 유저 타워 x 아이템 타워




- popular item이 인기가 있다는 이유만으로 negative sampling에 너무 많이 존재.














ref: https://www.youtube.com/watch?v=FSDuo9ybv8s