자연어는 Label과 달리 특정 개수로 구분되지 않음
이미지 마다 매칭되어 있는 설명 문장은 전부 다르기 때문에 softmax로 구분하는 학습 방법 불가
Contrastive Learning
Contrastive Pre-Training

zero shot prediction이 가능해짐
한 번도 학습하지 않은 문제를 맞추는 것
학습하지 않은 클래스를 예측
→ Image Feature와 Text Feature들간의 Cosine Similarity를 측정 , 그럼 해당 이미지를 가장 잘 설명하는 Text Feature와의 Cosine Similarity 값이 가장 크게 나옴 왜냐하면 CLIP이 바로 그렇게 학습했기 때문!!