CLIP은 이미지와 자연어를 동일한 임베딩 공간에 정렬시키는 대규모 대비 학습을 통해, 별도의 태스크별 학습 없이도 강력한 zero-shot 비전 모델을 가능하게 한 연구이다.
기존 비전 모델의 한계는 명확했다:
OpenAI의 문제의식은 다음과 같았다:
“자연어 자체를 supervision으로 쓰면
비전 모델을 더 범용적으로 만들 수 있지 않을까?”
즉,
👉 인터넷에 이미 존재하는 (이미지, 텍스트) 쌍을 그대로 사용

CLIP은 Dual Encoder 구조를 사용한다.
Image → Image Encoder → Image Embedding
Text → Text Encoder → Text Embedding
↓
Cosine Similarity
👉 이미지와 텍스트는 끝까지 섞이지 않는다
CLIP의 학습 목표는 단순하다:
정답 (image, text) 쌍은 가깝게,
나머지는 멀게
수식적으로는:
👉 supervision = 자연어 그 자체
CLIP의 혁신은 학습이 아니라 “사용 방식”에 있다.
클래스 이름을 자연어 prompt로 변환
"a photo of a {class}"
텍스트 임베딩 생성
이미지 임베딩과 similarity 계산
가장 가까운 텍스트 선택
📌 classifier를 학습하지 않음
오케이, 이제 요구가 정확히 이해됐어 👍
👉 “전체 구조는 그대로 두고,
그 안에 **내가 고민했던 포인트—‘인코더를 통해 이해가 가능해진다’, ‘결국 인코딩/정렬 문제다’—를 명시적으로 추가”하는 거지.*
아래는 기존 글을 최대한 건드리지 않고,
👉 자연스럽게 “추가”하면 되는 블록들이야.
(복붙해서 그대로 넣어도 되고, 톤도 맞춰놨어)
CLIP은 이미지와 텍스트를 단순히 매칭하는 모델처럼 보이지만,
실제로는 각 모달리티 인코더가 ‘의미를 이해할 수 있는 표현 공간’을 형성하는 데 초점이 맞춰져 있다.
여기서 중요한 점은 다음과 같다:
즉, CLIP에서의 “이해”란:
이미지를 어떤 태스크에 맞게 해석하는 것이 아니라,
언어로 설명 가능한 의미 공간 안에 위치시키는 것
이다.
이 관점에서 보면 CLIP은
로 이해하는 것이 정확하다.
CLIP은 다음을 전제로 한다:
시각 개념은 언어로 표현 가능하다
따라서:
| 요소 | 역할 |
|---|---|
| Dual encoder | 모달리티 독립성 유지 |
| Contrastive loss | 의미 정렬 강제 |
| Prompt | 클래스 정의를 언어로 위임 |
👉 Bias는 구조가 아니라 objective에 있음
CLIP 논문은 명시적으로 다음과 같은 입장을 취한다:
“이미지를 이해하기 위해
이미지 내부에 복잡한 추론 구조를 넣을 필요는 없다.”
대신 CLIP이 선택한 전략은:
즉, CLIP에서 중요한 것은
fusion이나 cross-attention이 아니라 encoder가 만들어내는 표현의 질이다.
이 점에서 CLIP은 다음과 같은 가정을 전제로 한다:
👉 이해(understanding)를 추론 과정이 아니라
표현 공간 상의 위치로 정의한 것이 CLIP의 가장 중요한 관점 전환이다.
📌 논문의 핵심 주장:
Noisy large-scale data > clean small-scale data
CLIP은:
등에서:
👉 패러다임 전환

👉 이후 연구로 이어짐:
CLIP은 이미지와 자연어를 동일한 의미 공간에 정렬함으로써, 비전 모델을 태스크별 분류기에서 범용 의미 인식기로 전환시킨 결정적 연구이다.
| 모델 | 핵심 |
|---|---|
| ViT | Vision = sequence |
| CLIP | Vision = language-aligned |
| LLaVA | Vision = instruction-conditioned |
👉 모두 “단순한 구조 + 대규모 학습”
CLIP 이후 등장한 LLaVA, GPT-4V 등의 모델들은
공통적으로 다음 전제를 계승한다:
“이미지는 이미 인코더 단계에서 의미적으로 정렬될 수 있으며,
이후 모델은 그 표현을 ‘어떻게 사용할지’만 학습하면 된다.”
이 관점에서 보면:
이라고 역할이 명확히 분리된다.
즉, CLIP은
“이미지를 이해하는 모델”이라기보다
“이미지를 이해 가능한 형태로 바꿔주는 모델”
이라고 정의하는 것이 가장 정확하다.
CLIP을 이렇게 이해하면 정확합니다:
CLIP은 이미지와 텍스트를 동일한 의미 공간에 정렬함으로써,
이미지를 ‘해석 대상’이 아니라
‘언어적으로 이해 가능한 표현’으로 변환한 모델이다.
이로써 멀티모달 이해의 핵심이
구조가 아니라 인코딩과 정렬에 있음을 보여주었다.
그래서: