본 Paper Review는 고려대학교 스마트생산시스템 연구실 2025년 논문세미나 활동입니다.
논문의 전문은 여기에서 확인 가능합니다.
Vision Foundation Models(CLIP, SAM)
SAM-CLIP

Zero-Shot Capabilities
Emergence of a New Task
: CLIP 및 ALIGN과 같은 모델들은 대규모 이미지-텍스트 데이터셋을 기반으로 학습됨
이 모델들은 서로 다른 모달리티를 위한 인코더로 구성되어 이미지와 텍스트 각각의 임베딩을 생성함
: 이미지-텍스트 쌍의 긍정적 관계를 최대화하는 대조적 학습 목표가 적용되며, 이로 인해 무분별한 이미지-텍스트 검색 또는 텍스트 프롬프트를 통한 분류가 가능함
: ViLT, VLMo, BLIP와 같은 모델들은 이미지와 텍스트 모달리티 간의 혼합 아키텍처를 탐색하여 추가적인 제로샷 능력을 구현함
: SAM은 프롬프트를 기반으로 세그멘테이션을 가능하게 하는 대규모 데이터셋, 모델 및 훈련 레시피를 소개함
SAM은 이미지 인코더와 프롬프트 인코더, 마스크 디코더로 구성되며, 고해상도 세그멘테이션 마스크를 생성할 수 있음
: 지식 증류는 대형 모델(Teacher)이 축적한 지식을 기반으로 압축된 분류기(Student)를 훈련하는 방법
최근 VLM에 대한 증류 방법들이 전개되고 있으며, 이는 서로 다른 제로샷 능력을 단일 모델로 전달하는데 집중함
: 새로운 작업을 배우면서 이미 학습한 지식을 잃지 않도록 하는 계속적 학습 접근 방식이 사용됨
: 사전 지식 없이 주어진 텍스트 프롬프트에 따라 밀접한 세그멘테이션 마스크를 예측하는 작업으로, 열린 형식의 작업을 요구함
최신 접근 방법은 이미지-텍스트 쌍 데이터셋과 사전 훈련된 VLM을 활용하여 세그멘테이션 마스크를 생성함
두 개의 VFMs인 SAM과 CLIP를 효율적으로 통합하여 성능을 극대화하는 방법을 제시함
이 접근방식은 SAM을 기초 모델로 설정하고, CLIP의 지식을 이를 통해 통합하는 과정으로 이루어짐
두 모델은 각각 고유한 능력을 가지며, SAM은 고해상도 이미지에서 뛰어난 세그멘테이션 성능을 보여주고, CLIP은 의미적 이해에 강점을 가지고 있음
이러한 상호 보완적인 특성을 활용하여, SAM-CLIP이라는 단일 모델을 개발함

Base Model: SAM (Segment Anything Model)
이미지 인코더 (EncSAM), 프롬프트 인코더 (PromptEncSAM), 마스크 디코더 (MaskDecSAM) 구성
Auxiliary Model: CLIP
EncCLIP 및 TextEncCLIP 로 구성
SAM의 샘플에서 추출한 지식과 CLIP의 샘플에서 추출한 지식을 통합하여 새로운 모델 EncSAM-CLIP을 생성합니다.
전이 손실: CLIP의 세미틱 기능을 SAM에 통합하면서, 다음과 같은 손실 함수를 사용하여 지식 전이를 수행합니다:

이 수식은 CLIP로부터 학습한 세미틱 특성을 통해 SAM의 성능을 높이는 것을 목표로 합니다.
학습 과정은 두 단계로 구성됨

Model Architecture
SAM-CLIP은 Segment Anything Model(SAM)을 기반으로 하며, ViT-B/16 아키텍처로 구성됨
SAM은 12개의 변환기 레이어를 포함함
CLIP의 능력을 통합하기 위해, SAM 백본에 CLIP 헤드를 추가
이 CLIP 헤드는 간단한 구조로 3개의 변환기 레이어로 구성됨
이미지에서 추출된 패치 토큰은 통합 풀링 계층을 통해 이미지 수준의 임베딩으로 변환
이 풀링 계층은 샘플 이미지에 대해 더 나은 제로-샷 분류 및 세분화 성능을 이끌어내는 데 기여함
Dataset Preparation
CLIP의 지식 증류를 위해 여러 데이터셋을 병합하여 을 생성
포함된 데이터셋은 CC3M, CC12M, YFCC-15M, 및 ImageNet-21k로 총합 40.6M개의 비표시 이미지로 구성됨
SAM의 자기 증류를 위해 SA-1B 데이터셋에서 5.7%의 하위 집합을 샘플링하여 DSAM을 생성함
SAM 데이터셋은 처음에 11M 개의 이미지와 1.1B 개의 마스크로 이루어져 있음
Training
Head Probing: 이 단계에서는 이미지 백본(EncSAM-CLIP)은 고정하고, HeadCLIP만 학습함
이는 HeadCLIP의 파라미터에 타당한 값을 먼저 학습하게 하여 Forgetting을 방지하는 데 도움을 줌
Multi-task Distillation: 이 단계에서는 모든 헤드와 이미지 인코더가 학습 가능하도록 하여, 과 을 결합한 손실을 최적화함
이 과정에서 과 에서 샘플을 사용하여 다중 작업 훈련을 진행함
Resolution Adaption
SAM-CLIP은 다양한 해상도를 지원하도록 설계됨
CLIP 작업은 낮은 해상도에서 수행되고, SAM 작업은 1024px 해상도에서 수행됨
두 헤드를 동시에 사용할 경우 효율성을 높이기 위해 CLIP 헤드를 1024px 해상도로 조정하는 추가 단계를 포함함
More Details
구현 및 훈련에 대한 세부사항은 부록 A에 제시됨

CLIP Tasks: Zero-Shot Image Classification & Text-to-Image Retrieval
제로샷 이미지 분류
:SAM-CLIP은 제로샷 이미지 분류를 위해 미리 정의된 텍스트 템플릿을 사용하여 이미지들을 분류
입력 변수로는 ImageNet, ImageNet-v2, Places365와 같은 데이터셋이 사용
SAM-CLIP은 72.4%의 정확도로 ImageNet에서 제로샷 분류를 수행하였으며, 기존 CLIP 모델들과 비교했을 때 경쟁력 있는 성능을 보임
특히 CLIP 모델들은 일반적으로 224px 해상도에서 훈련되었으나 SAM-CLIP은 336px 해상도로 작동하여 이에 대한 성능 향상이 있음을 보여줌
제로샷 텍스트-이미지 검색:
: SAM-CLIP은 Flickr30K 및 COCO 데이터셋에서 텍스트-이미지 검색 성능을 평가함
여기서는 이미지와 텍스트 임베딩 간의 코사인 유사도를 계산하여 순위를 매김
SAM-CLIP은 79.2%의 Recall@1 성능을 달성하여 기존 모델보다 높은 검색 성능을 기록함
이에 따라 제로샷 평가에서 뛰어난 성능을 발휘
SAM Task: Zero-Shot Instance Segmentation
: SAM-CLIP은 객체 탐지 결과로 생성된 경계 상자를 기반으로 개별 객체 인스턴스에 대한 마스크를 예측함
COCO와 LVIS 데이터를 사용해 성능을 평가함
SAM-CLIP은 COCO와 LVIS 데이터셋에서 원본 SAM 모델과 비슷한 성능을 보여주어, 기존 SAM의 능력이 효과적으로 유지되었음을 입증함
이 성능은 제로샷 인스턴스 분할에서 SAM-CLIP의 우수성을 나타냄
Zero-Shot Transfer to Semantic Segmentation


: SAM-CLIP은 Pascal VOC, Pascal Context, ADE20k 등의 데이터셋에서 제로샷 의미론적 분할의 성능을 평가함
여기서는 CLIP-헤드를 통해 입력된 이미지를 텍스트 클래스와 일치시키고 마스크 예측을 수행함
SAM-CLIP은 60.6%의 mean IoU(mIoU)를 기록하여 각 데이터셋에서 이전 아키텍처들보다 훨씬 더 나은 성능을 달성함
특히, 모든 데이터셋에서 SOTA를 큼직한 차이로 이룸




본 논문에서는 공공에서 사용 가능한 시각 기반 모델인 Segment Anything Model (SAM)과 Contrastive Language-Image Pretraining (CLIP)을 통합하여 단일 아키텍처로 만드는 방법을 제안함
이 방법은 multi-task distillation와 memory rehearsal을 기반으로 하여, SAM과 CLIP의 서로 보완적인 시각적 능력을 결합하는 것을 목표로 함
SAM은 spatial understanding에 뛰어난 반면, CLIP은 이미지의 semantic understanding에 강점을 가짐
SAM-CLIP의 장점
본 연구에서는 SAM-CLIP이 CLIP의 의미적 이해와 SAM의 localization knowledge를 결합하여 zero-shot semantic segmentation에서 SOTA를 달성했음을 보여줌