https://arxiv.org/abs/2303.15343
Softmax-Based Contrastive Loss:
Sigmoid-Based Contrastive Loss:
| 측면 | Sigmoid Loss(SigLIP) | Softmax Loss(CLIP) |
|---|---|---|
| 설명 | Sigmoid 연산 사용, 각 이미지-텍스트 쌍 독립 평가, 글로벌 정규화 없음 | Softmax 연산 사용, Positive 쌍 Loss는 배치 내 모든 Negative 쌍에 의존 |
| 문제 정의 | 이진 분류: 매칭 쌍(Positive) vs. 비매칭 쌍(Negative) | 다중 클래스 분류: 이미지 를 배치 내 모든 Negative 텍스트 중 매칭 텍스트 에 할당 |
| 메모리 복잡도 | NxN 행렬 필요 없음, 대규모 배치 크기에서도 점진적 평가 가능 | 글로벌 정규화 필요, NxN 행렬로 이차 메모리 복잡도 |
| GPU 통신 | 텍스트 특징만 전달, 1회 all-gather 연산 | 이미지와 텍스트 특징 모두 전달, 2회 all-gather 연산 |
| 배치 크기 영향 | 32k에서 최적, 작은 배치(4k~8k)에서 우수 | 98k에서 피크, 큰 배치 크기에서 성능 차이 줄어듦 |
| 노이즈 강건성 | 데이터 노이즈에 강건, 5가지 부패 방법에서 우수 | 노이즈에 덜 강건, 성능 저하 |
다양한 실험을 통해 SigLIP과 SigLiT(Sigmoid Loss 기반 모델)의 성능을 평가했으며, CLIP, OpenCLIP, EVA-CLIP, CLIPA-v2 등 기존 방법과 비교. 주요 결과는 다음과 같음:
제로샷 ImageNet 정확도:

확장 비교(Table 3):
| 모델 | ImageNet-1k (%) | ImageNet-v2 (%) | ObjectNet (%) | COCO I→T R@1 (%) | COCO T→I R@1 (%) |
|---|---|---|---|---|---|
| SigLIP B/1024 | 79.2 | 73.0 | 74.7 | 67.6 | 50.4 |
| SigLIP L/576 | 82.1 | 75.9 | 81.0 | 70.6 | 52.7 |
| CLIP B/196 | 68.3 | 61.9 | 55.3 | 52.4 | 33.1 |
다국어 성능:
배치 크기 영향: