https://arxiv.org/abs/2508.10104
Versatile Foundational Models

Improved Dense Features

DINOv3 Model Family

현대 Vision 응용은 Pre-trained transformers의 Dense Feature maps 활용
Local SSL losses 개발: Dense Feature maps 품질 향상
Distillation-based agglomerative methods
Post-hoc improvements: SSL 학습 모델의 지역 Feature maps 개선
ViT Feature maps는 Patch화로 저해상도, 최근 고해상도 Feature maps 생성 연구

Data scaling: 대규모 Foundation model 성공의 핵심 요인
DINOv3 접근법: 일반화 가능성과 성능 균형을 위해 두 가지 상호 보완적 Data curation 방식 결합
Data Collection and Curation
Data Sampling
Data Ablation


3x3 Patch일 때의 Position 예시
(-1, -1) (0, -1) (1, -1)
(-1, 0) (0, 0) (1, 0)
(-1, 1) (0, 1) (1, 1)

현상 분석
Patch Feature maps 품질 분석
Patch 간 Cosine similarity 시각화 (아래 Fig. 6)

Patch 불규칙성
해결책: Patch Feature maps 규제 및 Patch-level consistency 보존을 위한 Gram anchoring 목표 제안
관찰: 강력한 Discriminative features 학습과 Local consistency 유지 간 상대적 독립성
Gram anchoring 제안
Gram matrix based loss
적용 방식
Refinement step:
영향 분석 (아래 Fig. 7)

성능 향상 (아래 Fig. 8)

관찰: Patch Feature maps 가중 평균으로 Outlier patches 평활화, Patch-level consistency 강화
Gram teacher 개선

Refinement objective (LHRef)
성능 향상 (아래 Fig. 8, 9b)

학습 초기 100k 또는 200k 반복 시점의 Gram teacher를 사용하면 성능이 비슷하게 잘 나왔지만, 100만 반복 시점의 teacher는 Patch 일관성(Patch-level consistency)이 떨어져 성능이 나빠짐
초기 학습 단계(100k~200k)에서 추출한 고품질 Feature가 이후 학습에서 변질되므로, 이를 기준으로 삼는 것이 더 효과적
정성적 평가 (아래 Fig. 10)


A Family of Models for Multiple Use-Cases

Efficient Multi-Student Distillation

Parallel distillation pipeline (아래 Fig. 12)
다중 Student 동시 학습, 모든 노드에서 Teacher 추론 공유

방법: Parallel distillation pipeline은 여러 Student 모델을 동시에 학습하며, 모든 GPU 노드에서 Teacher 모델의 추론 결과를 공유하고, 각 Student에 GPU를 할당(B/NT × CT로 Teacher 비용 분산, B/NSi × CSi로 Student 학습)해 계산 효율성을 높임
효과: All-gather와 NCCL로 데이터 동기화하고 GPU 수를 조정해 반복 시간을 균일화하며 속도를 극대화, ViT-7B에서 다중 소형 모델을 효율적으로 생성
의미: 추가 Student 모델을 더해도 전체 Teacher 추론 비용이 고정되어 자원 활용을 최적화, 실용적인 모델 배포를 지원
Dense Feature maps를 PCA로 3차원 투영, RGB 매핑 (아래 Fig. 13)

DINOv3 Feature maps: 다른 Vision 백본 대비 선명, 노이즈 적고 우수한 Semantic coherence

DINOv3의 CLS token에 Linear classifier 학습, Classification benchmarks 평가
데이터셋

Fine-grained Classification



