- ViT는 transformer만을 사용하여 컴퓨터 비전에 적용하여 CNN의 SOTA 성능을 넘은 최초의 논문
- transformer 모델은 inductive biases가 부족하기 때문에 아주 방대한 데이터셋 학습을 통해 이를 해결
- BERT와 유사하게 class token을 추가하여 학습을 진행
- position embedding도 활용하였으며 2D-aware 보다 1D position embedding이 더 성능이 좋아 이를 사용