“바나나를 그려줘”라는 텍스트 쿼리로 이미지를 검색하는 기술은 CLIP의 등장 이후 빠르게 발전했다. 텍스트와 이미지를 동일한 임베딩 공간에 매핑하는 기본 아이디어에서 출발해, 현재는 멀티모달 확장, 검색 파이프라인 정교화, 패치 단위 세밀한 매칭까지 진화했다.
텍스트와 이미지를 같은 임베딩 공간에 매핑해 코사인 유사도로 검색한다.
텍스트: "banana" -> [Text Encoder] -> vec_t
이미지: (banana) -> [Image Encoder] -> vec_i
-> 같은 공간에서 vec_t ≈ vec_i (유사도 높음)
사용자 입력
|
[CLIP Text Encoder] -> query_vec (512d)
|
[Vector DB: HNSW 인덱스 탐색]
|
[Top-K 유사 이미지 후보]
|
결과 반환
이미지 전체를 하나의 벡터로 압축 → 세밀한 부분 검색 불가
짧고 모호한 쿼리에 취약
텍스트와 이미지 모달리티 외 확장 불가
CLIP 이후 등장한 모델들이 스케일, 손실 함수, 모달리티 범위를 확장했다.
| 모델 | 개발사 | 핵심 개선 |
|---|---|---|
| ALIGN | 노이즈 데이터 15억 쌍 학습, CLIP 대비 스케일 업 | |
| SigLIP | Softmax 대신 Sigmoid loss 사용, 배치 의존성 제거 | |
| ImageBind | Meta | 텍스트/이미지/오디오/깊이/열화상/IMU를 동일 공간 임베딩 |
| E5-Mistral / BGE-M3 | Microsoft / BAAI | LLM 기반 텍스트 임베딩 강화 |

기존 CLIP이 텍스트-이미지 2개 모달리티만 연결했다면, ImageBind는 6개 모달리티를 하나의 공간에 통합한다. “개 짖는 소리”로 개 이미지를 검색하거나, 온도 센서 데이터로 열화상 이미지를 검색하는 것이 가능해진다.
단일 ANN 검색의 정밀도 한계를 2단계 구조로 보완한다.
ANN 검색 (Bi-encoder, 빠름)
|
Top-100 후보 추출
|
Cross-Encoder Reranker (정확함, 느림)
|
Top-5 최종 반환
Bi-encoder는 각 벡터를 독립적으로 인코딩해 빠르게 후보를 좁히고, Cross-encoder는 쿼리와 후보를 함께 입력해 정밀하게 재정렬한다.
짧고 모호한 쿼리의 임베딩 품질을 높이기 위해 LLM이 먼저 가상의 답변을 생성한다.
"바나나를 그려줘"
|
LLM이 가상 이미지 설명 생성
"노란색 초승달 모양의 열대 과일, 껍질에 갈색 점이 있으며..."
|
가상 설명을 임베딩해서 검색
|
실제 바나나 이미지와 유사도 계산
쿼리 자체보다 가상 설명이 이미지 벡터와 의미적으로 더 가까운 공간에 위치하기 때문에 검색 품질이 올라간다.

단순 벡터 유사도를 넘어 개념 간 관계를 그래프로 연결한다.
"바나나" 벡터
|
Knowledge Graph 연결
바나나 - [열대과일] - 망고, 파인애플
바나나 - [노란색] - 레몬, 해바라기
바나나 - [과일] - 사과, 포도
벡터 유사도 검색으로 후보를 찾고, 그래프 트래버설로 연관 개념을 확장해 더 풍부한 결과를 반환한다. Microsoft의 GraphRAG가 대표 구현체다.
기존: 이미지 1장 -> 벡터 1개 (전체 의미 압축)
-> "바나나의 껍질 색깔만" 같은 세밀한 쿼리에 약함
ColPali: 이미지 1장 -> 패치 벡터 196개 (이미지를 격자로 분할)
쿼리의 각 토큰이 이미지의 각 패치와 개별 매칭
-> 세밀한 부분 검색 가능
ColBERT의 Late Interaction 개념을 이미지로 확장한 것으로, PDF 문서 내 특정 표나 그래프를 검색하는 데 특히 강하다.
검색 결과를 단순 반환이 아니라 생성 모델의 컨텍스트로 주입한다.
검색된 바나나 이미지 3장
|
IP-Adapter / ControlNet으로 레퍼런스 전달
|
Stable Diffusion / DALL-E가 스타일/구도 참조
|
새로운 바나나 이미지 생성
| 세대 | 대표 기술 | 핵심 특징 |
|---|---|---|
| 1세대 | CLIP | 텍스트-이미지 단일 벡터 매칭 |
| 2세대 | SigLIP, ALIGN | 스케일 업, 손실 함수 개선 |
| 3세대 | ImageBind | 6개 모달리티 통합 임베딩 |
| 4세대 | HyDE + Reranker | 검색 파이프라인 정교화 |
| 5세대 | GraphRAG | 의미 관계 그래프 통합 |
| 현재 | ColPali | 패치 단위 Late Interaction |