
CLIP 논문에 대해 chat-GPT와 참고 자료들을 활용하여 정리했지만 오역이나 잘못된 이해가 충분히 존재할 수 있으니 비판적으로 읽어주시면 감사하겠습니다.기존 SOTA Computer Vision 시스템은 고정된 집합의, 미리 지정한 Object Category에

CLIP : Contrastive Language-Image Pretrained model 은 ImageNet 데이터셋보다 30배 이상 많은 웹 상의 (Image-Text) pair를 대조학습을 통하여 general 한 image representation predic