https://arxiv.org/abs/2411.14402
본 논문은 AIM의 후속 연구이며 아래 정리 게시글 참고
https://velog.io/@bluein/paper-7
1. Introduction
- Vision Model의 Pre-training 연구는 시간이 지남에 따라 크게 발전
- 초기에는 특정 Task의 성능을 극대화하기 위해 전문 Model 설계
- 점차적으로 최소한의 적응으로 여러 사전 정의된 Downstream Task에 배포 가능한 Foundation Model 등장
- 그러나 Large Language Models (LLMs)의 놀라운 성공이 Vision Model 활용에 새로운 패러다임 도입
- 기존의 엄격한 사전 설정과 달리, LLMs는 Pre-training된 Model의 능력을 더 효과적으로 활용 가능
- 이러한 변화는 Vision Model의 Pre-training 방법 재고를 요구
- Generative pre-training은 Language Modeling의 지배적인 패러다임으로, 뛰어난 성능과 Scalability을 보임
- Generative pre-training은 Computer Vision에서도 광범위하게 탐구됨, 하지만 여전히 discriminative 방법보다 성능이 낮음
- 예를 들어, El-Nouby 등은 LLMs Pre-training과 유사한 형식을 제안하여 긍정적인 Scaling 특성 시연, 그러나 discriminative 방법과 동일한 성능을 위해서는 훨씬 더 높은 Capacity의 Model 필요
- 반면, contrastive 기법은 Parameter Efficiency가 높지만, Training 및 Scaling이 상당히 어려움
- 이러한 문제를 완화하기 위한 상당한 진전이 있었으나, generative pre-training의 Simplicity와 Scalability, discriminative 접근의 Parameter Efficiency를 결합한 방법 개발에는 여전히 격차가 존재
AIMV2
- AIMV2는 Image Patch와 Text Token을 모두 autoregressive하게 생성하도록 Pre-training된 Open Vision Model 계열 구조
- Pre-training 중, AIMV2는 causal Multi-modal decoder를 사용하여 먼저 Image Patch를 Regression한 후 Text Token을 autoregressive 방식으로 Decoding
- Advantages
- Implementation 및 Training이 간단하며, 과도하게 큰 Batch Size나 특수한 Inter-batch 통신 방법 필요 없음
- AIMV2의 아키텍처와 Pre-training 목표는 LLM 기반 Multi-modal Application과 잘 맞아 원활한 통합 가능
- Image Patch와 Text Token에서 Training 신호 추출, discriminative 목표보다 더 밀집된 supervision 제공
- Performance
- 다양한 Vision 및 Multi-modal Task에서 뛰어난 성능을 보이는 강력한 일반화 성능
- Multi-modal Understanding 벤치마크에서 SOTA Vision-Language Pre-training 방법보다 우수한 성능
- DINOv2을 Open-vocabulary Object Detection 및 Reference Representation Understanding에서 능가, frozen trunk 상태에서 강력한 Recognition 성능
- Data나 Parameter를 Scaling할 때 일관되게 향상되는 높은 Scalability
- 여러 현대 도구와의 호환성 시연, 네이티브 Image Resolution 지원 및 zero-shot Recognition 적응 가능
2. Approach
2.1. Pre-training
- Model은 표준 unimodal autoregressive 프레임워크를 Scaling 하여 Image와 Text를 통합한 Multi-modal 설정으로 통합된 Sequence 생성

- 구체적으로, Image (x)는 (I)개의 겹치지 않는 Patch (xi), (i in[1,I])로 분할되어 Token Sequence 형성
- Text Sequence는 subwords (xt), (t in[I,I+T])로 분할
- 이 Sequence들은 결합되어 Text Token이 Image Token을 참조할 수 있도록 함
- 항상 Image를 먼저 배치하여 강력한 Visual Feature 생성을 가능하게 함
Integrated Multi-modal Autoregressive Modeling Process
- Sequence는 다음과 같이 인수분해:
P(S)=∏j=1I+TP(Sj∣S<j)
- 여기서 (Sj)는 결합된 Image Patch와 Text Token Sequence의 j번째 Token, (S<j)는 이전 모든 Token
- 이 통합된 인수분해는 Model이 Sequence에서 다음 Token을 autoregressively 예측할 수 있게 함
Pre-training Setting
- 전용 Vision Encoder가 Raw Image Patch를 처리하고, 이는 Multi-modal Decoder에 전달
- Decoder는 결합된 Sequence에 대해 다음 Token 예측 수행
- Vision Encoder와 Multi-modal Decoder는 각각 prefix와 causal self-attention 연산 사용
Objective Function
- Image와 Text Domain에 대해 별도의 Loss Function 정의:
Limg=∑i=1I∣∣x^i(x<i;θ)−xi∣∣2
Ltext=−∑t=I+1I+TlogP(xt∣x<t;θ)
- 전체 목표는 Model Parameter theta 에 대해 (Ltext+alpha∗Limg)를 최소화
- Ltext: 각 단계에서 실제 Token의 negative log-likelihood를 측정하는 standard cross-entropy Loss
- (Limg
- ell2 Pixel level Regression Loss
- Model이 예측한 Patch hatxi(theta)와 실제 Patch xi 비교
- Image Patch는 He 등에 따라 Normalization
- 실제 Implementation에서는 Multi-modal Decoder의 최종 hidden state를 Image Patch와 Language의 적절한 출력 차원으로 매핑하기 위해 별도의 Linear Layer 사용
2.2. Architecture
Vision Encoder
- AIMV2의 Vision Encoder로 Vision Transformer (ViT) 아키텍처 채택
- 300M에서 3B Parameter 범위의 Vision Encoder 시리즈 Training
- 상세한 Model 사양은 Table 1에 제공
Prefix Attention
- El-Nouby 등을 따름
- Prefix Attention Mask 적용하여 Vision Encoder 내 self-attention 메커니즘 제한
- 이 전략은 추가 Tuning 없이 추론 시 양방향 attention 사용 가능하게 함
- 구체적으로, prefix 길이를 (M \sim U{1,2,...,I-1})로 Random Sampling
- Pixel Loss은 prefix Patch를 제외한 ({ x_i | i > M })에 대해서만 계산
SwiGLU and RMSNorm
- Vision Encoder와 Multi-modal Decoder에 SwiGLU를 Feedforward Network (FFN)으로 통합
- 모든 Normalization Layer를 RMSNorm으로 교체
- 이러한 수정은 Language Modeling에서 SwiGLU와 RMSNorm의 최근 성공을 활용
Multi-modal Decoder
- Image와 Text Modality 모두에 대해 autoregressive 생성 수행하는 통합된 Multi-modal Decoder 채택
- Image Feature와 Raw Text Token을 각각 Linear Projection하여 (R{d{dec}})에 임베딩
- Decoder는 Image와 Text Feature의 결합된 Sequence를 입력으로 받고, self-attention 연산에서 causal attention 사용
- Decoder의 출력은 Image Token과 Text Token 각각을 예측하기 위해 두 개의 별도 Linear Head를 통해 처리
- 모든 AIMV2 Variation에 동일한 Decoder Capacity 사용
Optimization Hyperparameters
- 모든 AIMV2 Model의 Pre-training 중 사용된 최적화 Hyperparameter는 Table A1에 개요
2.3. Data
Dataset Composition
- Open 및 Closed Data셋의 Image-Text Pair를 조합하여 AIMV2 Model Pre-training
- 공개적으로 사용 가능한 DFN-2B와 COYO Data셋 사용
- High Quality Image-Text Pairs (HQITP)라는 독점 Data셋 추가
- Alt-text 외에도 Lai 등의 접근 방식을 따르는 Synthetic Caption 사용
- Data셋의 크기와 각 Data셋에 사용된 샘플링 확률 등 세부 사항은 Table 2에 제공
- 특별히 언급되지 않는 한, 모든 AIMV2 Model은 120억 개의 Image-Text 샘플을 사용하여 Pre-training
2.4. Post-Training
Post-Training Strategies
- 초기 Pre-training 단계에서 높은 성능의 Model 도출, 이후 다양한 post-training 전략을 통해 능력 추가 향상 탐구
High-resolution Adaptation
- 초기 Pre-training 단계에서 고정된 Resolution 224px의 Image Data 사용
- Detection, Segmentation, Multi-modal LLMs와 같은 많은 Downstream Task은 더 높은 Resolution의 Image 처리에 적응된 Model에서 이점
- 따라서, AIMV2 Model을 336px 및 448px Resolution으로 Fine-tuning
- High-resolution adaptation 단계는 Pre-training 단계와 동일한 풀에서 샘플링된 20억 개의 Image-Text Pair 사용, 이 단계에서는 Synthetic Caption 사용하지 않음
- Zhai 등의 관찰과 일치하게, 안정적인 최적화를 유지하기 위해 weight decay를 0으로 설정하는 것이 중요
Native Resolution Fine-tuning
- 전용 Resolution와 종횡비로 Model을 Training 하는 것은 원본 형태의 Image를 처리해야 하는 많은 응용 프로그램에서 유연하지 않음
- 이전 연구인 FlexiViT와 NaViT이 이러한 제한을 해결
- 다양한 종횡비와 Resolution으로 Training하기 위한 다른 접근 방식 채택
- 구체적으로, (B_i)를 Mini-batch 내 Image 수, (A_i)를 Image당 Patch 수, (C)를 Mini-batch 내 총 Image Patch 수로 정의
- Mini-batch (i)에 대해, 영역 (A)를 무작위로 샘플링하고 Image의 종횡비를 유지하면서 이 영역 내에 맞게 크기 조정
- 그 후, (C = A_i \times B_i)가 되도록 Mini-batch 크기 (B_i) 조정
- 이 전략은 Pouransari 등이 가변 컨Text 길이로 LLMs를 Training하는 접근 방식과 유사
- Implementation 시, Sequence 패킹, attention masking, 또는 커스텀 Pooling 연산에 대한 휴리스틱이 불필요
- (A = 2^n) 선택, 여기서 (n)은 잘린 정규 분포 (N(0,1))에서 ([-1,1]) 범위 내에서 샘플링되고 ([7,12])로 Linear 매핑
3. Analysis
- One of the main advantages of AIMV2 is its simplicity
- Implementation 및 Scaling이 용이
- 따라서, AIMV2 Model 계열의 Scaling 특성을 조사
3.1. Scaling AIMV2
3.2. AIMV2 vs. Captioning
4. Results
- AIMV2는 다양한 Downstream Task에 즉시 활용 가능한 generalist Vision Encoder
- Recognition, Detection, Caption Generation 및 여러 Multi-modal 벤치마크 포함 다양한 Task에서 성능 평가
4.1. Image Recognition
-
Attentive Probing
- AIMV2 Model의 품질을 Recognition 벤치마크의 off-the-shelf Backbone으로 평가, Table B1에 개요
- Yu 등이 제안한 attentive probing 설정 채택, Vision Encoder는 frozen 상태 유지, 마지막 Layer Feature 위에 attentive probe classifier만 Training

- 위 테이블에서, probing 실험에 사용된 상세 Hyperparameter는 Table A2에 제공
- Key Findings
- AIMV2는 MAE, AIM과 같은 generative unsupervised 방법보다 유의하게 우수, 더 작은 Capacity Model에서도 동일
- DINOv2 대비 AIMV2-1B 및 AIMV2-H가 여러 벤치마크에서 경쟁력 있는 성능 제공, 특히 IN-1k, Food101, DTD, Cars, Infographic에서 우수
- 그러나 DINOv2는 iNaturalist 및 fMoW에서 뛰어난 성능 제공
- Self-supervised Model이 의료 영상 벤치마크(RxRx1, CAM17)에서 강력한 성능 보여, Low-resource Domain에서 self-supervised Training의 중요성 확인
- 다른 Vision-Language Pre-training된 baseline과 비교 시, AIMV2는 매우 경쟁력 있는 성능
- 예를 들어, ViT-Large Capacity에서 AIMV2는 대부분의 벤치마크에서 OAI CLIP보다 우수, DFN-CLIP 및 SigLIP보다도 여러 주요 벤치마크(IN-1k, iNaturalist, DTD, Infographic)에서 강력한 성능 달성
- AIMV2는 DFN-CLIP 및 SigLIP보다 약 1/4의 Data(12B vs. 40B)로 Training되었으며, Training 및 Scaling이 더 용이
- AIMV2 Model Capacity Scaling은 일관된 성능 향상으로 이어지며, AIMV2-3B가 가장 강력한 결과 도출, 특히 448px Image로 Fine-tuning된 변종은 IN-1k에서 89.5% top-1 정확도 달성
- Figure 3에서 Model Capacity 및 Image Resolution Scaling 시 IN-1k 성능 명확한 향상 관찰, High-resolution Fine-tuning된 Backbone의 상세 결과는 Appendix B에 제공
-
Zero-shot via LiT Tuning
- AIMV2 Backbone의 LiT와의 호환성 조사, zero-shot 설정으로 Scaling
- IN-1k zero-shot 성능은 Table 5에 제시
- Key Findings
- Multi-modal autoregressive 목표를 가진 AIMV2는 captioning-only baseline 대비 소폭 향상
- AIMV2-L Model은 CapPa의 결과보다 유리한 성능, 긴 Training 기간 후
- 전반적으로, AIMV2는 OAI CLIP보다 우수한 zero-shot 성능, 그러나 40B Image-Text Pair로 더 긴 일정에 Training된 SigLIP과 같은 전용 Model보다는 뒤처짐
-
Native Resolution
- 다양한 Resolution 및 종횡비로 Image를 처리하도록 AIMV2 Fine-tuning, 2.4에 상세
- 이 단계의 품질 평가를 위해 native resolution에 적응된 AIMV2 Encoder와 특정 Resolution으로 조정된 Model 비교, 결과는 Table 6에 제시
- Key Findings
- AIMV2-Lnative는 다양한 Resolution에서 강력한 성능 제공, 전용 Model과 비교해 약간의 성능 저하만 발생
- IN-1k validation set Image의 원본 native resolution 사용 시 87.3% robust accuracy 달성, AIMV2가 exceptional recognition 성능 유지하며 종횡비 및 Resolution에서 높은 유연성 제공
4.2. Object Detection and Grounding
- Demonstration of Additional Features of AIMV2
- AIMV2의 성능을 Open-Vocabulary Detection (OVD)과 Referring Expression Comprehension (REC)과 같은 Task에서 평가
- MM-Grounding-DINO에서 소개된 Model 아키텍처를 따르되, ViT-L을 ViTDet 형식으로 Vision Backbone에 적용
- 결과는 Table 4에 제시
- OVD Performance Evaluation
- REC Performance Evaluation
- RefCOCO (RefC), RefCOCO+ (RefC+), RefCOCOg (RefCg)에서 평가
- Training Datasets
- Objects365v1, Flickr-30k Entities, GQA, COCO17, RefCOCO 사용
- DINOv2 Training Setup
- Window size를 16으로 고정하여 Backbone 간 고정된 계산 비용 보장
- Results
- AIMV2는 모든 벤치마크 중 하나를 제외하고 DINOv2 및 다른 Vision-Language Pre-training Model보다 우수한 성능을 보임
- 특히 LVIS에서 뛰어난 성능 시연
- 추가로 Closed-vocabulary Detection, Instance Segmentation 및 다양한 Window Sizes에 대한 ablation 결과는 Appendix D에 제공
4.3. Multi-modal Understanding
- Importance of Vision Encoder in the Advancement of Multi-modal Models
- Large-scale Multi-modal Model의 발전에 Vision Encoder가 중요한 역할 수행
- Quantifying the Performance of AIMV2
- Liu 등과 유사한 Multi-modal Instruction Tuning 단계 수행
- McKinzie 등과 유사한 Large-scale Multi-modal Pre-training 후 Few-shot In-Context Learning (ICL) 설정 탐구
4.3.1. Multi-modal Instruction Tuning
4.3.2. Multi-modal In-Context Learning
- Setup
- Large-scale Multi-modal Pre-training 설정에서 AIMV2 평가
- MM1의 Pre-training 전략을 따르되, Vision Encoder를 AIMV2로 교체
- Interleaved image-text 문서를 사용하여 Pre-training된 Model로 in-context evaluations 가능하게 함
- ICL 성능은 Table 8에 제시
- Benchmarks
- COCO, NoCaps, TextCaps, VQAv2, TextVQA, VizWiz, GQA, OK-VQA
- Results
- AIMV2는 4-shot 및 8-shot 설정에서 최고의 성능 달성, MM1 시리즈가 채택한 더 높은 Capacity의 DFN-CLIP을 능가
- 이는 Large-scale Multi-modal 설정에서 AIMV2가 ICL을 효과적으로 활용할 수 있음을 강조
7. Conclusion
- Introduction of AIMV2
- AIMV2는 Image Patch와 Text Token을 Reconstruction 하는 Multi-modal autoregressive 목표로 Pre-training 된 Vision Encoder
- Advantages of Integrated Objectives
- Image Recognition, Grounding, Multi-modal Understanding 등 다양한 Task에서 AIMV2의 우수한 성능 발휘 가능
- Reasons for Superior Performance
- 모든 입력 Token과 Patch의 신호를 활용하여, 다른 방법에 비해 적은 샘플로도 효율적인 Training 가능
- Comparison Results
- 기존의 self-supervised 및 Vision-Language Pre-training Model보다 일관되게 우수하거나 동등한 성능
- AIMV2의 강력함을 Vision Encoder로서 입증
- Advantages of Pre-training Process
- 단순한 Pre-training 과정으로 인해 쉬운 Scalability 보장
- Vision Model Scaling의 추가 발전을 위한 길을 열어줌