
Soft Distillation: teacher 모델의 softmax 값 활용
Hard label distillation: teacher 모델의 예측값 활용
실험적으로 hard label distillation with label smoothing의 성능이 더 좋았음
Class token 이외에 distillation token이 추가됐으며, 이로 인해서 output도 하나 추가됌
Loss를 2가지로 도출한다
실험적으로 class token과 distillation token이 비슷하며(not same) cosine 유사도가 0.93임을 확인하였다.
distillation token은 class token과는 다른 기능을 가지며, classification 성능 향상에는 도움을 전혀 주지 않는다.
GT label외에 teacher의 pseudo label을 함께 활용하여 fine-tuning할 때의 성능이 더 좋았다고 한다.
inference 단계에서 두 가지의 아웃풋인 class/distillation token을 softmax해서 더해주는(fusion) 방법을 사용했다고 한다.




Paper URL : https://arxiv.org/abs/2012.12877
Github URL : https://github.com/facebookresearch/deit