이 글은 ICLR 2024에 게재된 "Vision Transformer Need Registers"을 리뷰하기 위해 작성한 글입니다.
1. 이미지에서 generic feature를 잘 뽑는 것은 굉장히 중요하다
2. DINO 알고리즘이 이미지의 의미적 레이아웃에 대한 명시적인 정보를 포함하는 모델을 생성하는 것으로 나타나면서, 이러한 특성을 이용해서 객체 탐지 알고리즘이 DINO기반으로 구축됨
3. 이 논문에서는 이 artifacts가 나타나는 현상에 대해 고찰하고, 나아가 이 artifacts를 탐지할 수 있는 방법을 제안함
Artifacts??
이 artifacts는 tokens이고, 10x higher norm at the output and correspond to a small fraction of the total sequence (2%)
이 artifacts는 only appear after a sufficiently long training of a sufficiently big transformer.
hold less information about their original position in the image or the original pixels in their patch
-> 모델이 discards local information contained in these patches during inference
contain global information about the image
(1) Fig4-(a): 저자들은 DINOv2 학습과정에서 이 outlier patches를 분석했는데, 이 high-norm patches는 around layer 15 of 40-layer ViT에서 두드러지기 시작함
(2) Fig4-(b): distribution of norms 를 보면, DINOv2 학습 과정에서 outlier가 only appear after one third of training.
(3) Fig4-(c): models of different size (Tiny, Small, Base, Large, Huge and giant)에서 오직 three largest models에서만 나타남
-> 이를 확인하기 위해 high-norm token과 그들의 4 neighbors right after the patch embedding layer간의 cosine-similarity를 계산함.
- Fig5-(a): high-norms tokens들은 그들의 neighbors와 굉장히 비슷하게 나타남
-> 이는 즉, 이 patches들이 contain redundant information and that the model could discard their information without hurting the quality of the image representation.
-> 굉장히 중요!!!!!
-> 이 tokens에 대해 더 자세히 이해하기 위해 이 tokens들을 가지고 실험들을 진행해봄 Fig5-(b)
Position prediction: We train a linear model to predict the position of each patch token in the image, and measure its accuracy
- high-norm tokens have much lower accuravy than the other tokens
Pixel reconstruction: We train a linear model to predict the pixel values of the image from the patch embeddings, and measure the accuracy of this model.
- high-norm tokens achieve much lower accuracy than other tokens
-> 이 tokens들이 global information을 얼마나 가지고 있는지는 분석하기 위해 standard image representation learning benchmark에 검증
- 실험 결과: the high-norm tokens have a much higher accuracy than the other tokens (Table 1).
-> This suggests that outlier tokens contain more global information than other patch tokens.
이러한 관찰을 바탕으로 저자들은 다음과 같은 가정과 결론, 해결책을 냄
Hypothesis: large, sufficiently trained mod- els learn to recognize redundant tokens, and to use them as places to store, process and retrieve global information
-> Indeed, it leads the model to discard local patch information (Tab. 5b), possibly incurring decreased performance on dense prediction tasks
Solution: explicitly add new tokens to the sequence, that the model can learn to use as registers.
-> add these tokens after the patch embedding layer, with a learnable value, similarly to the [CLS] token.
-> At the end of the vision transformer, these tokens are discarded, and the [CLS] token and patch tokens are used as image representations, as usual.
저자들은 자기들이 주장하는 solution이 굉장히 simple한 구조라서 기존의 모델들 학습과정에 쉽게 적용할 수 있다고 강조함
try it on three different state-of-the-art training methods for supervised, text-supervised, and unsupervised learning, shortly described below.
논문에서 요약