OpenAI가 공개한 최초의 대규모 대비학습 VLM이다. 이미지 인코더(ResNet 또는 ViT)와 텍스트 인코더(12-layer Transformer) 두 네트워크를 독립적으로 학습시켜, 4억 장의 웹 이미지-캡션 쌍을 InfoNCE 손실로 정렬했다.
학습이 끝난 뒤에는 단지 “a photo of a {label}” 같은 프롬프트를 던지는 것만으로, ImageNet을 비롯한 다양한 데이터셋에서 라벨 없이 제로샷 분류가 가능해 “멀티모달 GPT-2”라는 별명을 얻었다. 다만 토큰 길이(76)·위치 세부 인식·OOD 데이터에 취약하다는 한계도 함께 드러났다.
ALIGN (Google Research 2021)
CLIP과 동일한 듀얼 인코더 구조를 유지하되, 1 billion 이상의 노이즈 많은 alt-text 데이터를 그대로 사용해 “규모가 노이즈를 압도한다”는 사실을 입증했다.
대량 데이터를 바탕으로 ImageNet-zero-shot, Flickr30k retrieval 등에서 CLIP을 크게 앞섰지만, 코드와 모델 가중치는 공개되지 않아 재현성이 떨어진다는 지적을 받았다. 또한 웹 노이즈 편향이 훨씬 더 강하게 잔존해 도메인 편향 문제가 부각됐다.
OpenCLIP (LAION & Community 2022-)
CLIP을 완전히 오픈소스로 재현하고 확장하려는 커뮤니티 프로젝트다. 코드베이스와 함께 LAION-400M/2B, DataComp-1B 등 공개 메가 규모 데이터로 학습된 수십 개의 체크포인트를 배포해 누구나 제로샷·소량-파인튜닝 연구를 수행할 수 있게 만들었다.
실험 결과, 동일한 백본이라도 데이터 품질·필터링 방식에 따라 제로샷 성능이 ±5 %P까지 달라진다는 사실을 검증하며 재현 가능성을 학계 표준으로 끌어올린 공로가 크다.
SigLip (Google ICCV 2023)
CLIP의 소프트맥스 기반 InfoNCE를 Sigmoid BCE로 교체해 배치 의존성을 제거했다. 손실 계산이 (이미지, 텍스트) 1:1로 국한되므로 작은 GPU에서도 안정적인 학습이 가능하며, 동시에 TPU v4 4개·이틀 학습만으로도 ImageNet 제로샷 84.5 %를 기록했다.
Locked-Image Tuning 기법을 도입해 이미지 인코더를 고정하고 언어 측만 소량 업데이트하는 효율적 전이 방식을 제안했다.
정리
CLIP이 제시한 듀얼 인코더 + 대비학습 설계는 이후 모델(ALIGN, OpenCLIP, SigLip)에 그대로 계승·확장되었다. ALIGN은 “더 많이”, OpenCLIP은 “더 열린 생태계”, SigLip은 “더 효율적인 손실”이라는 각기 다른 방향으로 발전하면서, 대규모 멀티모달 임베딩이 연구·산업 전반에 필수 인프라로 자리 잡게 되었다.
4.2 모델의 오차함수
목표는 이미지 I와 텍스트 T가 공존하는 공통 임베딩 공간Rd을 학습해,
짝이 맞는 (I,T)는 가깝게, 틀린 쌍은 멀게 배치하는 것이다.
(1) Dual-Encoder 기반 접근
zI=fθ(I),zT=gϕ(T)
두 인코더 fθ,gϕ가 독립적으로 이미지를 ViT/ResNet, 텍스트를 Transformer로 변환한다.