
이미지 모델 : 이미지만 학습한 모델로 일반화 능력이 부족하고 이미지를 얼마나 더 잘 표현하느냐에 집중해옴
자연어처리 모델에 비해 작은 모델, 데이터셋 크기 (ImageNet → 레이블을 직접 달아야함)
주어진 카테고리 내에서만 예측을 수행해왔음
VirTex, ConVIRT와 같은 모델이 transformer-based language modeling, contrastive objectives의 가능성을 보여줌
VirTex :

ConVIRT :

contrastive objective learning 기술 사용
efficient pre-training method

natural language supervision


Contrastive pre-training
Encoder
Zero-shot prediction
문장 형태 → text encoder → text representation (vector)
앞서 학습된 이미지 인코더에서 나온 이미지 벡터와의 유사도가 가장 높은 텍스트 선정
각 task에 대해 prompt를 적절히 설정하면 더 나은 분류 성능을 볼 수 있음

Zero-shot CLIP

Zero-shot VS. Few-shot

Zero-shot CLIP performance

Robustness on natural distribution shift

사람과의 비교
