CvT: Introducing Convolutions to Vision Transformers 제1부

이준석·2022년 6월 29일
0

CvT

목록 보기
1/6

링크

Abstract

We present in this paper a new architecture, named Convolutional vision Transformer (CvT), that improves Vision Transformer (ViT) in performance and efficiency by introducing convolutions into ViT to yield the best of both designs.
intorduce 도입하다
본 논문에서는 컨볼루션 비전 트랜스포머(CvT)라는 이름의 새로운 아키텍처를 제시하는데, 이는 컨볼루션을 ViT에 도입하여 두 설계 중 최상의 결과를 도출함으로써 성능과 효율에서 비전 트랜스포머(ViT)를 향상시킨다.

This is accomplished through two primary modifications: a hierarchy of Transformers containing a new convolutional token embedding, and a convolutional Transformer block leveraging a convolutional projection.
accomplish 달성하다 modification 수정 hierarchy 계층 leverage 활용하다
이것은 두 가지 주요 수정을 통해 달성됩니다. 새로운 컨볼루션 토큰 임베딩을 포함하는 Transformer 계층과 컨볼루션 투영을 활용하는 컨볼루션 Transformer 블록입니다.

These changes introduce desirable properties of convolutional neural networks (CNNs) to the ViT architecture (i.e. shift, scale, and distortion invariance) while maintaining the merits of Transformers (i.e. dynamic attention, global context, and better generalization).
introduce 도입하다 desirable 바람직한 properties 특성 merits 장점, 가치
이러한 변화는 컨볼루션 신경망 (CNN)의 바람직한 특성을 ViT 아키텍처 (즉, 시프트, 스케일 및 왜곡 불변성)에 도입하면서 트랜스포머의 장점 (즉, 동적 관심, 글로벌 컨텍스트 및 더 나은 일반화)을 유지합니다.

We validate CvT by conducting extensive experiments, showing that this approach achieves state-of-the-art performance over other Vision Transformers and ResNets on ImageNet-1k, with fewer parameters and lower FLOPs.
우리는 광범위한 실험을 수행하여 CvT를 검증합니다. 이 접근 방식은 더 적은 매개변수와 더 낮은 FLOP로 ImageNet-1k의 다른 Vision Transformer 및 ResNet에 비해 최첨단 성능을 달성한다는 것을 보여줍니다.

In addition, performance gains are maintained when pretrained on larger datasets (e.g. ImageNet-22k) and fine-tuned to downstream tasks.
gains() (n)이득,증가
또한 더 큰 데이터 세트(예: ImageNet-22k)에 대해 사전 훈련되고 다운스트림 작업으로 미세 조정될 때 성능 향상이 유지됩니다.

Pretrained on ImageNet-22k, our CvT-W24 obtains a top-1 accuracy of 87.7% on the ImageNet-1k val set.
ImageNet-22k에서 사전 훈련된 CvT-W24는 ImageNet-1k val 세트에서 87.7%의 최고 정확도를 얻습니다.

Finally, our results show that the positional encoding, a crucial component in existing Vision Transformers, can be safely removed in our model, simplifying the design for higher resolution vision tasks.
마지막으로, 우리의 결과는 기존 Vision Transformers의 중요한 구성 요소인 위치 인코딩이 우리 모델에서 안전하게 제거되어 고해상도 비전 작업을 위한 설계를 단순화할 수 있음을 보여줍니다.

Code will be released at 링크

5. Conclusion

In this work, we have presented a detailed study of introducing convolutions into the Vision Transformer architecture to merge the benefits of Transformers with the benefits of CNNs for image recognition tasks.
merge 병합하다
이 작업에서 우리는 이미지 인식 작업을 위한 CNN의 이점과 Transformer의 이점을 병합하기 위해 Vision Transformer 아키텍처에 컨볼루션을 도입하는 자세한 연구를 제시했습니다.

Extensive experiments demonstrate that the introduced convolutional token embedding and convolutional projection, along with the multi-stage design of the network enabled by convolutions, make our CvT architecture achieve superior performance while maintaining computational efficiency.
enable 가능하게하다 along with ~와 함께, ~에 덧붙여, ~와 마찬가지로
광범위한 실험을 통해 도입된 컨볼루션 토큰 임베딩 및 컨볼루션 프로젝션과 함께 컨볼루션에 의해 지원되는 네트워크의 다단계 설계로 인해 CvT 아키텍처가 계산 효율성을 유지하면서 우수한 성능을 달성할 수 있음이 입증되었습니다.

Furthermore, due to the built-in local context structure introduced by convolutions, CvT no longer requires a position embedding, giving it a potential advantage for adaption to a wide range of vision tasks requiring variable input resolution.
adaption 적응 variable 가변성 있는 built-in 내장된
또한, 컨볼루션에 의해 도입된 내장된 로컬 컨텍스트 구조로 인해 CvT는 더 이상 위치 임베딩이 필요하지 않으므로 가변 입력 해상도가 필요한 광범위한 비전 작업에 적용할 수 있는 잠재적인 이점이 있습니다.

profile
인공지능 전문가가 될레요

0개의 댓글