Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification.
최근에는 순전히 주의에 기초한 신경망이 이미지 분류와 같은 이미지 이해 작업을 처리하는 것으로 나타났습니다.
These highperforming vision transformers are pre-trained with hundreds of millions of images using a large infrastructure, thereby limiting thier adoption.
infrastructure:인프라, thereby: 그렇게 함으로써
이러한 고성능 비전 트랜스포머는 대규모 인프라를 사용하여 수억 개의 이미지로 사전 훈련되므로 채택이 제한됩니다.
In this work, we produce competitive convolution-free transformers by training on Imagenet only.
본 연구에서는 Imagenet에서만 훈련하여 경쟁력 있는 컨볼루션 프리 변압기를 생산한다.
We train them on a single computer in less than 3 days.
Our reference vision transformer(86M parametrs) achieves top-1 accuracy of 83.1% (single-crop) on ImageNet with no external data.
우리의 기준 비전 트랜스포머(86M 매개 변수)는 외부 데이터 없이 ImageNet에서 83.1%(싱글 크롭)의 최고 정확도를 달성한다.
More importantly, we introduce a teacher-student strategy specific to transformers.
It relies on on disillation token ensuring that the student learns from the teacher through attention.distillation : 중류
그것은 학생이 교사로 부터 주의를 통해 배울 수 있도록 증류 토큰에 의존합니다.
We show the interest of this token-based distillation, especially when using a convnet as a teacher.
우리는 특히 convnet을 교사로 사용할 때 이 토큰 기반 증류에 대한 관심을 보여줍니다.
This leads us to report results competitive with convets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks.
이를 통해 Imagenet(최대 85.2% 정확도를 얻음)과 다른 작업으로 전송할 때 모두에 대해 convnet과 경쟁적인 결과를 보고합니다.
We share our code and models.
In this paaper, we have introudced DeiT, which are image transformers that do not require very large amount of data to be trained, thanks to improved training and in particular a nobel distillation procedure.
이 논문에서 우리는 개선된 훈련과 특히 새로운 증류 절차 덕분에 훈련에 많은 양의 데이터가 필요하지 않은 이미지 변환기인 DeiT를 소개했습니다.
Convolutional neural networks have optimized, both in terms of architecture and optimization during almost a decade, including through extensive architecture search that is prone to overfiting, as it is the case for instance for EfficientNets. prone : 하기 쉬운, 당하기 쉬운
컨볼루션 신경망은 예를 들어 EfficientNets의 경우와 마찬가지로 과적합하기 쉬운 광범위한 아키텍처 검색을 포함하여 거의 10년 동안 아키텍처와 최적화 측면에서 최적화되었다.
For Deit we havet started the existing data augmentation and regularizations strategies pre-existing for convnets, not introducing any significant architectural beyond our novel distillation token.
DeiT의 경우 우리는 새로운 증류 토큰을 넘어서는 중요한 아키텍처를 도입하지 않고 기존의 컨브넷에 대한 기존 데이터 증대 및 정규화 전략을 시작했습니다.
Therefore it is likely that research on data-augmentation more adapted or learned for transformers will bring further gains.
따라서 변압기에 더 적합하거나 학습된 데이터 증강에 대한 연구는 더 많은 이득을 가져올 것입니다.
Therefore, cosidering our results, where image tranformers are on pay with convets already, we believe that they will rapidly become a method of choice considering their lower memory footprint for a given accuracy.footprint : 차지하는 공간
따라서 이미지 변환기가 이미 convets와 함께 지불하고 있는 우리의 결과를 고려하면 주어진 정확도에 대해 더 낮은 메모리 공간을 고려하여 빠르게 선택 방법이 될 것이라고 믿습니다.