- 방대한 데이터 셋 없이 ImageNet 데이터 셋만으로 transformer 모델에서 높은 성능을 얻을 수 있다.
- distillation token을 도입하고 hard distillation 하는 것이 성능이 더 좋다.
- transformer 모델은 많은 데이터셋이 필요한데 이는 augmentation 기법을 통해 보완할 수 있다.
다음과 같은 하이퍼 파라미터를 활용하여 실험 진행
transformer 모델은 방대한 데이터셋이 필요하여 이를 위해 data augmentation 기법을 활용하였다.
Auto-Augment, Rand-Augment, random erasing이 성능에 영향을 주었으며 Timm library를 활용하여 적용하였고 AutoAugment대산 Rand-Augment를 하용하였다.
dropout은 사용하지 않았다.
Transformer는 hyper-parameter 설정에 민감하다.
본 논문에서는 Table.9와 같은 최적의 Hyperparameter 설정을 얻었다.
finetuning은 Fixefficientnet 논문에 따라 진행하였고 결과는 다음과 같다.
bicubic interporlation이 vector의 norm을 유지하는데 도움을 주어 이를 채택하였다.
학습 시간은 DeiT-B 기준 300epoch에 한 노드로 53시간이 소모된다.
repeated augmentation을 사용하기 때문에 1 epoch이 일반적인 epoch으로는 3 epoch을 가리킨다.