Transformer는 computer vision 분야에서 점점 많은 관심을 받고 있지만, 여전히 CNN보다는 성능이 뒤처진다.
이 연구에서는 Transformer가 model capacity는 더 크지만, 적절한 inductive bias의 부족으로 인해 generalization 성능이 CNN보다 나쁠 수 있음을 보여준다.
두 가지 architecture의 강점을 효과적으로 결합하기 위해, 우리는 CoAtNets(CoAt는 "코트"라고 발음)라는 hybrid model을 제시.
CoAtNets는 두 가지 주요 insight에 기반을 두고 있다.
실험 결과, CoAtNets는 다양한 dataset에서 resource constraints 없이 SOTA 성능을 달성했습니다.
AlexNet 이후, ConvNets은 computer vision에서 지배적인 model architecture가 되었다.
한편, NLP 분아야서 Transformer와 같은 self-attention model의 성공으로 많은 이전 연구들이 attention을 computer vision으로 가져오려고 시도했었다.
최근에는 Vision Transformer(ViT)가 vanilla Transformer layer만으로도 ImageNet-1k에서 합리적인 성능을 얻을 수 있음을 보여줬다.
더 중요한 점은, large-scale weakly labeled JFT-300M dataset에서 pretrain한 경우, ViT가 SOTA ConvNets과 견줄만한 결과를 얻어,
Transformer model이 ConvNets보다 더 높은 capacity를 가질 수 있음을 나타냈다.
ViT가 방대한 JFT-300M training images를 사용한 인상적인 결과를 보여주었지만, 낮은 data 환경에서는 여전히 ConvNets보다 성능이 떨어진다.
후속 연구들은 기본 ViT를 개선하기 위해 special regularization and stronger data augmentation을 사용했지만,
이러한 ViT variants model들은 동일한 양의 data와 computation 자원 하에서 ImageNet classification에서 SOTA convolution-only models을 능가하지 못했다.
이는 vanilla Transformer layer가 ConvNets가 가진 특정 inductive bias가 부족하며,
이를 보완하기 위해 상당한 양의 data와 computation 자원이 필요함을 시사한다.
예상할 수 있듯이, 많은 최근 연구자들은 Transformer model에 ConvNets의 Inductive bias를 통합하려고 노력하고 있다.
예를 들어,
attention layer에 local receptive fields를 부여하거나,
attention 및 FFN layer에 암묵적 또는 명시적인 convolution 연산을 추가하는 방법이 등이 있었다.
하지만 이러한 접근법들은 임시적이거나 특정 속성을 주입하는 데 집중되어 있으며, convolution과 attention이 결합될 때 각각의 역할에 대한 체계적인 이해가 부족한 상태이다.
M
oB
ileNetV2 Conv Block)에 집중한다.relative attention
:핵심은
Convolution의 inductive bias로 인한 Generalization 장점과
Transformer의 global context를 파악할 수 있다는 점, model capacity를 높일 수 있다는 장점을
결합하고 각각의 특징(단점)에 대한 Trade-off를 적절히 조절할 수 있는 classification architecture를 제안했다는 점이다.
이러한 hybrid architecture는 앞서 말한 두 CNN과 Transformer의 장점을 적절히 사용한다면 분명한 강점이 있을 것 같아서 후속 연구가 활발히 진행될 것 같다.
추가로 결합했을 때 기대되는 효과로 intuition 말고, 각각에 대한 자세한 효과를 논리적(수식 필요)으로 입증하는 논문이 나왔으면 좋겠다.