https://arxiv.org/abs/2303.13496
ICCV 2023
시각 인식(visual recognition)에서의 pretrain-then-finetune paradigm은 image classification, video recognition, object detection, low-shot classification 및 zero-shot recognition과 같은
다양한 작업 범위에서 고성능 시각 인식 모델을 가능하게 함
본 논문에서는 standard pretraining 작업 이전에 pre-pretraining 초기 단계를 수행함으로써 다양한 다른 작업에서 시각 모델의 성능을 향상시킬 수 있다는 것을 보여줌
다음과 같은 두 가지 일반적인 pre-pretraining 작업을 결합
두 형태의 pre-pretraining 모두 무작위로 초기화된 모델로 학습을 시작하며, 일반적인 목적의 시각 모델을 학습하는 데 효과적임이 입증
이 논문에서는 self-and weakly-supervised learning의 조합을 간단한 pre-pretraining framework에서 탐구
대규모 Pre-pretraining 연구는 모델 초기화가 웹 스케일 pre-training에서도 중요한 역할을 한다는 것을 밝혀냄
특히 다음과 같은 사실들을 보여줌