
- teacher : img1로 vit encoder, projection을 통과하여 representation을 얻은 뒤, representation들과 prototypes들을 내적한 행렬을 획득한 뒤, 그 행렬에 대해 sinkhorn알고리즘을 통해 reprsentation 들이 균등한 prototype에 할당되도록 내적 행렬을 조정하고, softmax값을 구해서 soft target 생성. Teacher network는 학습하지 않음
- student : img2로 vit encoder, projection을 하고, softmax를 통해서 soft prediction 생성. Student network는 학습함
- Loss : soft prediction이 soft target을 따라가도록 cross entropy로 학습.
- EMA Update : Student의 vit encoder weight를 teacher의 vit encoder weight에 ema 로 update 수행.
- DINO Loss : 1~4 과정은 img1, img2 하나의 pair에 대한 process. 자기 자신 global view를 제외한 총 7개 view pair를 만들어서 Cross entropy loss들을 7개를 평균내서 최종 dino loss 생성됨
Representation과 Prototype들을 내적한 Score matrix에 적용하는 normalization으로, 각 prototype에 균등한 개수의 representation들이 할당되게 함으로써, 학습에 모든 prototype이 고르게 사용되도록 유도