CLIP류 모델은 이미지와 텍스트를 동일한 의미 공간(embedding space)에 매핑하는 모델이다.
즉, 이미지 하나와 문장 하나를 각각 벡터로 변환했을 때, 서로 의미적으로 일치하는 쌍은 가깝게, 일치하지 않는 쌍은 멀어지도록 학습한다.
쉽게 말해, CLIP류 모델은 이미지를 단순히 고정된 클래스 중 하나로 분류하는 데 그치지 않고, 이미지와 자연어 문장을 직접 연결하여 이해하는 모델이다. 예를 들어 고양이 사진과 “a cat on a sofa”라는 문장을 서로 가깝게 배치하도록 학습하는 방식이다. 따라서 CLIP류 모델은 본질적으로 “이미지를 언어와 연결 가능한 표현으로 바꾸는 모델”이라고 할 수 있다.
CLIP류 모델의 가장 큰 강점은 범용성이다. 기존의 이미지 분류 모델이 정해진 클래스 라벨을 기반으로 학습되었다면, CLIP은 이미지-문장 쌍을 기반으로 학습되기 때문에 훨씬 더 일반적인 시각 표현을 획득할 수 있다. 이러한 장점은 zero-shot classification, image-text retrieval, 그리고 비전-언어 모델(VLM)의 vision encoder 활용으로 이어진다.
첫째, zero-shot classification이 가능하다. 즉, 별도의 추가 학습 없이도 “a photo of a dog”, “a photo of a car”와 같은 텍스트 프롬프트와 이미지의 유사도를 비교하여 분류를 수행할 수 있다.
둘째, retrieval 작업에 강하다. 텍스트를 입력하면 관련 이미지를 찾고, 반대로 이미지를 입력하면 가장 잘 맞는 설명 문장을 찾을 수 있다.
셋째, 이후 대규모 언어모델과 결합되는 멀티모달 시스템에서 강력한 vision encoder로 활용될 수 있다.
그러나 CLIP류 모델에는 분명한 한계도 존재한다. 기존 CLIP 스타일 모델은 전역적인 의미 이해에는 강하지만, localization이나 dense semantic representation이 요구되는 작업에서는 상대적으로 약하다.
즉, CLIP은 “이 사진이 개와 관련 있다”, “이 문장이 이 사진과 잘 맞는다”와 같은 전역적 의미 판단에는 강하지만, “개가 사진 안의 정확히 어디에 있는가”, “각 patch가 어떤 의미를 가지는가”, “픽셀 또는 영역 단위의 세밀한 이해가 필요한 작업”에서는 한계를 가진다. 이러한 점이 SigLIP 2가 해결하고자 하는 핵심 문제의식이다.
SigLIP은 CLIP과 같은 이미지-텍스트 정렬 계열의 모델이지만, 학습 손실 함수(loss)에서 중요한 차이를 가진다.
CLIP의 contrastive loss는 하나의 미니배치 안에 여러 이미지와 여러 텍스트를 함께 두고, 올바른 이미지-텍스트 쌍은 가깝게, 나머지 잘못된 쌍은 상대적으로 멀게 만드는 방식이다. 즉, 배치 내에서 어떤 이미지에 가장 잘 맞는 문장이 무엇인지, 또는 어떤 문장에 가장 잘 맞는 이미지가 무엇인지 경쟁시키는 구조라고 볼 수 있다.
반면 SigLIP은 미니배치 내의 모든 이미지 임베딩과 모든 텍스트 임베딩의 조합을 대상으로, 각 쌍이 서로 맞는지 아닌지를 독립적인 이진 분류(binary classification)처럼 다룬다. 다시 말해, CLIP이 “누가 가장 잘 맞는 짝인가”를 비교하는 방식이라면, SigLIP은 “이 이미지와 이 문장이 서로 맞는가 아닌가”를 각각 판별하는 방식이다.
이 차이는 SigLIP 2를 이해하는 데 중요하다. SigLIP 2는 완전히 새로운 계열의 모델이 아니라, 기본적으로 SigLIP의 sigmoid loss 기반 학습 구조를 유지한 채 그 위에 여러 보강 기법을 추가한 모델이기 때문이다. 따라서 개념적으로는 CLIP에서 SigLIP으로, 그리고 다시 SigLIP 2로 발전하는 흐름으로 이해하면 자연스럽다.
SigLIP 2는 기존 SigLIP의 기본 구조 위에 여러 학습 기법을 통합적으로 추가한 모델이다. 단순한 이미지-텍스트 정렬을 넘어 semantic understanding, localization, dense feature quality를 전반적으로 향상시키는 방향으로 확장되었다고 볼 수 있다.
첫째, decoder-based pretraining이 추가되었다. 구체적으로는 captioning, referring expression comprehension, grounded captioning과 같은 보조 과제를 함께 학습한다. 이는 단순히 이미지와 텍스트가 맞는지 판단하는 수준을 넘어서, 이미지의 내용을 설명하고, 문장이 가리키는 구체적인 영역을 이해하도록 만드는 역할을 한다. 이 학습은 OCR 및 localization 성능 향상에 직접적으로 기여한다.
둘째, self-distillation이 추가되었다. 여기서는 teacher가 전체 이미지를 보고 생성한 표현을 student가 부분적인 view만 보고도 비슷하게 따라가도록 학습한다. 이 방식은 모델이 이미지 일부만 보더라도 전체 의미를 보존하는 표현을 학습하게 하며, 보다 견고한 시각 표현 형성에 도움을 준다.
셋째, masked prediction이 추가되었다. 이미지 patch의 절반가량을 가린 뒤, 가려진 위치의 feature를 teacher feature에 맞추도록 학습한다. 이는 patch 단위의 표현 학습을 강화하며, segmentation이나 depth estimation처럼 dense prediction이 필요한 작업에 유리한 feature를 형성하게 한다.
넷째, multilingual data와 debiasing 기법이 도입되었다. SigLIP 2는 다양한 언어 데이터를 함께 활용하여 학습하며, 편향을 줄이기 위한 filtering도 적용한다. 그 결과 영어 중심 성능을 유지하면서도 다국어 retrieval 성능과 fairness를 향상시키는 방향을 추구한다.
다섯째, NaFlex가 도입되었다. 이는 다양한 해상도와 원본 종횡비(native aspect ratio)를 최대한 유지하면서 입력을 처리할 수 있도록 한 방식이다. 기존에는 이미지를 정사각형 입력으로 맞추는 과정에서 왜곡이 발생하는 경우가 많았지만, NaFlex는 이러한 왜곡을 줄여 문서 이미지, OCR, 화면 캡처와 같이 비율 유지가 중요한 입력에서 더 나은 성능을 기대할 수 있게 한다.
정리하면, 기존 CLIP/SigLIP이 전역적 의미 정렬에 강했다면, SigLIP 2는 여기에 decoder 기반 학습을 통한 설명 및 위치 이해, self-distillation과 masked prediction을 통한 patch 및 dense feature 강화, multilingual 학습을 통한 다국어 확장, NaFlex를 통한 입력 유연성 확보를 결합한 모델이라고 볼 수 있다. 즉, “이미지-텍스트 정렬을 잘하던 모델을 보다 세밀하게 이해할 수 있도록 확장한 버전”이라고 요약할 수 있다.
논문은 SigLIP 2의 성능을 classification, retrieval, localization, dense task 등 여러 관점에서 평가한다.
먼저 classification과 retrieval 측면에서, SigLIP 2는 기존 SigLIP 및 여러 baseline 대비 전반적으로 더 우수한 zero-shot classification과 image-text retrieval 성능을 보인다. 특히 다국어 지원 모델임에도 불구하고 영어 중심 벤치마크에서도 강한 성능을 유지한다는 점이 강조된다. 또한 multilingual retrieval 성능 역시 기존 SigLIP 대비 크게 향상되었다.
다음으로 VLM encoder로서의 활용성도 개선되었다. SigLIP 2를 vision encoder로 사용할 경우, 기존 SigLIP보다 더 나은 성능을 제공한다. 이는 SigLIP 2가 단지 독립적인 retrieval 모델로만 강한 것이 아니라, 이후 대규모 멀티모달 시스템의 시각 인코더로 사용될 때도 더 우수한 표현을 제공할 수 있음을 의미한다.
Dense task 측면에서도 성능 향상이 나타난다. segmentation, depth, normals와 같은 dense prediction 작업에서 SigLIP 2는 여러 공개형 CLIP 스타일 모델들보다 우수한 성능을 보이는 경우가 많다. 이는 앞서 설명한 self-distillation과 masked prediction이 local semantics와 dense feature 학습을 강화한 결과로 해석할 수 있다.
Localization 관련 성능 역시 중요하게 다루어진다. 특히 referring expression comprehension 결과에서 SigLIP 2는 SigLIP, CLIP, captioning-only pretraining 모델보다 큰 폭으로 향상된 성능을 보인다. 이는 decoder-based pretraining이 문장과 이미지 내 지역 정보를 정교하게 연결하는 능력을 강화했기 때문으로 설명할 수 있다. 예를 들어 “빨간 옷을 입은 사람”, “왼쪽 아래에 있는 컵”, “창문 옆의 고양이”처럼 문장이 지목하는 특정 대상을 정확히 찾는 과제에서 더 잘 작동한다는 의미이다. 또한 open-vocabulary detection에서도 SigLIP 2가 기존 SigLIP보다 우수한 성능을 보인다.
SigLIP 2 논문은 다음과 같은 흐름으로 이해할 수 있다.
우선 CLIP류 모델은 이미지와 텍스트를 동일한 의미 공간에 정렬함으로써 zero-shot classification, retrieval, 그리고 VLM의 vision encoder로서 강력한 성능을 보이는 범용 비전-언어 인코더 계열이다.
그러나 기존 CLIP류 모델은 전역적인 의미 이해에는 강한 반면, localization이나 dense feature가 중요한 작업에서는 한계를 가진다.
SigLIP은 이러한 CLIP류 모델 중 하나로, CLIP의 contrastive loss 대신 sigmoid loss를 사용한다는 점에서 구별된다.
SigLIP 2는 이 SigLIP 기반 위에 decoder-based pretraining, self-distillation, masked prediction, multilingual 학습, NaFlex를 추가함으로써 모델의 능력을 확장하였다. 그 결과 classification과 retrieval뿐 아니라 localization, dense prediction, 그리고 VLM vision encoder로서의 활용성까지 전반적으로 개선되었다는 것이 논문의 핵심 주장이다.