

Anisotropy 문제 발생의 증거
singular value들고 bert(파랑선)와 제안 모델(빨간선)을 비교했을 때, bert의 경우 총 768dim을 가진 latent space에서 처음 몇개(10~20개 dim)만 1에 가까운 큰 값을 갖고, 나머지는 0값을 가짐. 이는 대부분의 차원이 쓸모 없고 문장이 소수 차원으로만 표현된다는 의미. 최대 1로 normalize 했다는 것은, 단위가 1인 768공간에다가 embedding을 mapping 시켰다는 의미이며, 시각화를 위해 3차원 구로 보았을 때,
좌측이 제안 모델의 임베딩 분포, 우측이 BERT의 임베딩 분포라고 볼 수 있음
(SimCLR) Unlabled data에 대해 서로 다른 종류의 augmentation을 먹여서 두 data가 가까워지고, batch내 다른 sample들에 대해 멀어지게끔 학습

(Limitation) Discrete하다는 text의 특성 때문에 Augmentation이 어려웠음. 기존에는 word level에서 변형을 주는 방법으로 augmentation 했었는데, 성능 저하를 초래했음. positive pair 구성이 불명확