기존의 ViT들은 input image를 동일한 크기(equal-size)의 patch로 나눠 처리하였다.
그러나 Transformer가 처음 제안된 배경인 NLP를 생각해보면, 이때는 각각의 token이 subword를 의미하며, arbitrary size로 학습이 되어왔다.
저자는, 이 부분에 의문을 제기하여 다음 방법을 제안한다.
ViT도 equal하지 않은 arbitrary한 사이즈의 patch를 학습시켜야 하지 않을까?
standard uniform grid가 아니라 mixed-resolution sequence of tokens이 될 수 있도록
새로운 image tokenization 방법
을 제안하는게 바로 이 논문의 핵심이다.
다음 메소드를 구현하기 위해,
Quadtree algorithm과 새로운 saliency scorer을 사용하여 patch mosaic를 만든다.
이때, low-saliency areas는 low resolution으로 처리가 되며, 모델이 important image region에 더 집중할 수 있게 해준다.
(즉, 중요하지 않은 부분은 낮은 해상도로, 중요한 부분은 높은 해상도로 처리한다고 생각하면 좋다.)
기존 vanilla ViT와 동일한 architecture을 사용하며,
본 Quadformer 모델은 computational budget(계산량)은 유지하면서 image classification에서 성능 향상을 보여주었다.
이전에도 multi-resolution processing을 ViT에 시도하려는 연구가 있었다.
그러나 선행 연구와 달리
본 논문은 tokenization에서 mixed-resolution을 제안한 첫 논문이다.
patch mosaic
quadtree algorithm
2D position embedding
이때, vanilla ViT는 single patch size(16^2)을 사용한 반면
본 연구는 3개의 patch size(16^2,32^2,64^2)를 사용하였다.
이어서 계속..