Summary Self attention from a VIT with 8 $\times$ 8 patches trained with no supervision 본 연구에서는 Vision Transformer(VIT)의 feature를 self-supervised-le
최근 self-supervised learning기술이 발전하면서 supervised/unsupervised learning간의 성능 차이는 좁혀지고 있다. 본 연구에서는 여러 large-scale 데이터셋에 대해 대조적 self-supervised-learning을