Pixel-blur scorer는 high-frequency content가 많은 image 영역에 높은 importance를 할당
High-frequency content는 image compression에 대한 좋은 importance 측정일 수 있지만, object를 식별하려고 할 때는 중요하지 않은 natural image의 세부적인 배경이나 texture가 있는 경우가 많아서 object saliency의 importance 측정으로는 부적절
3.2.3. Feature-based scorer
Computer vision neural network는 semantically meaningful feature vector를 추출하는 데 자주 사용
Vision transformer와 CNN 모두 image 영역의 문맥을 고려한 embedding을 생성
Grad-CAM은 다양한 computer vision 모델로부터 얻은 예측에 대한 시각적 설명을 생성하기 위한 방법
각 pixel에 할당된 weight가 해당 pixel이 주어진 대상 클래스에 대한 image를 분류하는 데 얼마나 중요한지를 나타내는 pixel-level saliency map을 생성
Grad-CAM patch scorer로 생성된 고품질 saliency score를 사용하여 학습 및 평가하는 특정 oracle Quadformer를 사용
4. Experiments
Dataset and evaluation metrics
ImageNet-1K에서 실험
모델의 효율성을 평가하기 위해 다음을 측정
Transformer 모델의 input patch/token 수
Image 당 GMACs 수
GeForce RTX 3090 GPU에서의 처리량 (ims/sec) 및 실행 시간 (µ-초/im)
ViT-Small (22M 파라미터), ViT-Base (86M 파라미터), ViT-Large (307M 파라미터)와 같은 아키텍처를 공유
Fine-tuning
Pretrained model을 사용하여 모든 fine-tuned model의 weight를 초기화
완전히 처음부터 학습하는 것과 비교하여 훨씬 빠른 conversion time을 관찰했기 때문
Patch scorers
Feature-based patch scorer
ImageNet-1K에서 학습된 ShuffleNetV2×0.5 모델을 사용
FCN 바로 전까지만 잘라내어 x32 down-sampling rate를 얻음
Feature extraction backbone은 342K 파라미터만 가지고 있으며 추가 부담이 거의 없으며 실제 세계의 inference 목적에 실용적
Grad-CAM patch scorer
Oracle saliency estimation에는 145M 파라미터를 가진 RegNetY-32GF 모델을 사용
Main results
Feature based scorer를 사용하면 Quadformer 모델은 patch 수나 GMAC 수를 제어할 때 일반 Vision Transformer 대비 최대 0.79(ViT-Base의 경우) 또는 0.88(ViT-Large의 경우)의 absolute percentage point로 일관되게 높은 정확도를 보임
Accelerated inference를 위한 전용 도구를 사용하지 않았음에도 불구하고 inference speed를 제어하는 경우에도 거의 모든 #Patches 값에 대해 일반 ViT 모델을 넘는 결과를 보임
Image compression에 사용되는 일반적인 pixel based scorer는 feature based scorer보다 훨씬 나쁜 결과를 내며, surface details보다 semantic meaning의 우수성을 보여줌
Inference-time compute-accuracy trade-off
"Retrained" 라인은 각 #Patches 값에 대해 재학습된 모델을 보여줌
"Single" 라인은 다른 #Patches로 평가된 단일 모델 (100 patch로 학습)을 나타냄
Quadformers는 분포 밖의 input 길이에 대해 민감성이 적으며 단일 모델로 더 나은 inference 시 compute-accuracy trade-off를 제공
6. Conclusion
Vision Transformers를 위한 tokenization 방법을 제안
Image classification 실험을 통해, 표준 Vision Transformer 모델이 fine-tuning을 통해 mixed resolution tokenization에 adaptation할 수 있는 능력을 보여줌
Quadformer 모델은 patch 수나 GMACs를 제어할 때 일반 ViTs와 비교하여 상당한 정확도 향상을 달성
Accelerated inference를 위한 전용 도구를 사용하지 않았음에도 불구하고 Quadformers는 inference speed를 제어할 때 이득을 보임
향후 연구에서 mixed resolution ViTs를 다른 computer vision task에 성공적으로 적용할 수 있을 것
특히 information densities가 다양한 large image를 다루는 task 및 dense prediction task을 포함하는 task들을 고려