https://arxiv.org/abs/2401.08541
(1) Visual feature의 성능은 모델 용량과 데이터 양과 함께 확장되는 것
(2) Objective 함수의 가치는 모델의 Downstream task에서의 성능과 관련이 있음
1) 간단한 목적으로 학습되었지만(즉, 문장에서 다음 단어를 예측하는 것), 긴 문맥에서 복잡한 패턴을 학습할 수 있음
2) 이 Autoregressive objective의 확장성은 특정 아키텍처와 특히 Transformers와 함께 사용될 때 주로 관찰
Vanden Oord et al.는 이미지에 적합한 아키텍처, 예를 들어 CNN을 사용하여 구축된 Autoregressive 모델이 보다 일반적인 아키텍처인 RNN보다 크게 향상된 것을 보여줌
Noroozi와 Favaro는 이미지 패치의 순서를 재배열하는 방법을 학습, 다른 연구들은 클러스터링을 사용
가장 최근의 대조적인 접근 방식은 DINO, BYOL 또는 iBot 등을 포함
여기서 패치는 이산(discrete) 또는 픽셀 형태의 auto encoder로 마스킹되고 예측
예를 들어, noise는 salt and pepper 또는 masking과 같은 것
가장 유명한 것은 BigGAN으로, 이는 큰 GAN을 훈련하고 이미지 판별자를 재사용하여 이미지 특성을 생성
더 최근에는 Diffusion MAE가 이미지 특성을 학습하기 위해 diffusion 모델을 사용
142M개의 이미지와 460M개의 매개 변수를 가진 모델에 iBot 방법을 확장하여 최고의 SSL feature를 생성
사전 학습 중에는 DFN-2B에서 확률 p = 0.8로 이미지를 샘플링
ImageNet-1k에서는 확률 p = 0.2로 이미지를 샘플링
1) 모델의 용량은 각 모델 규모에 대해 안정성 유도 기술이나 많은 모델 규모에 대한 하이퍼파라미터의 범위 조정을 사용하지 않고도 손쉽게 70억 개의 매개변수로 확장될 수 있음
2) AIM의 사전 학습 작업에 대한 성능은 downstream 성능과 강한 상관 관계를 갖음
3) AIM은 15개의 recognition 벤치마크에서 강력한 성능을 발휘하여 MAE와 같은 이전 최신 기법을 능가하고 generative 및 joint embedding 사전 학습 접근법 간의 격차를 크게 줄임
4) 매개변수나 데이터의 규모를 확장함에 따라 포화(saturation)의 명확한 징후를 관찰하지 못했으며, 더 큰 모델을 더 긴 일정으로 훈련시킬 경우 더 많은 성능 향상이 가능할 것으로 보임