[CLIP] Paper Review

김보현·2024년 7월 28일
0

PaperReview

목록 보기
2/2

CLIP: Contrastive Language-Image Pre-training

Learning Transferable Visual Models From Natural Language Supervision

1. Introduction

최근 몇 년 동안 자연어 처리(NLP)에서 대규모 텍스트 데이터로 사전 학습하는 모델이 특정 작업 없이도 다양한 작업을 수행할 수 있게 했다.
이를 통해 연구자들은 컴퓨터 비전(CV)에서도 유사한 발전을 이루고자 했다. 전통적인 CV 모델은 사람이 라벨을 붙인 데이터세트에 의존하기 때문에 일반성 및 사용성이 제한되었다.
CLIP(Contrastive Language-Image Pre-Training)은 인터넷에서 수집한 방대한 이미지-텍스트 쌍 데이터세트를 학습하여 이미지 표현과 제로샷 학습에서 SOTA 성능을 달성하는 것을 목표로 한다.

2. Method

2-1. WiT

CLIP의 학습을 촉진하기 위해 4억 개의 이미지-텍스트 페어로 구성된 WebImageText(WiT) 데이터세트가 만들어졌다. 이 데이터세트는 인터넷에서 수집된 이미지-텍스트 페어를 포함하여 다양한 교육 세트를 보장한다.
데이터 수집에 사용된 쿼리는 영어 위키피디아에 적어도 100번 이상 등장했으며, 쿼리당 20,000개 이하의 페어를 포함하도록 하여 균형 잡힌 데이터세트를 보장한다.

2-2. Contrastive Learning

대조 학습은 CLIP 접근 방식의 중심이다. 이 방법은 이미지-텍스트 페어를 비교하고 유사한 항목의 임베딩이 더 가깝게, 유사하지 않은 항목의 임베딩이 더 멀어지도록 한다. CLIP은 이미지를 위한 인코더와 텍스트를 위한 인코더의 이중 인코더 시스템을 사용하여 임베딩을 생성한다.
이러한 임베딩은 코사인 유사도를 사용하여 비교되며, 모델은 긍정 페어(올바른 이미지-텍스트 페어)의 유사성을 극대화하고 부정 페어(잘못된 페어)의 유사성을 최소화하도록 학습된다.

2-3. Zero-shot transfer

CLIP은 사전 학습된 임베딩을 활용하여 제로샷 전이를 수행한다. 이를 통해 특정 작업에 대해 명시적으로 학습하지 않은 카테고리로 이미지를 분류할 수 있다.
클래스의 텍스트 설명을 사용하여 모델은 주어진 이미지에 대해 가장 가능성이 높은 클래스를 예측한다. 이 기능을 통해 CLIP은 작업별 학습 데이터가 필요 없이 다양한 작업에서 우수한 성능을 발휘할 수 있다.

2-4. Interacting with CLIP

사용자는 이미지를 제공하고 텍스트 프롬프트를 통해 CLIP과 상호작용할 수 있다. 모델은 이러한 프롬프트를 사용하여 학습된 이미지-텍스트 관계를 기반으로 예측을 생성한다.
이러한 상호작용 모드는 CLIP의 유연성과 이미지 분류부터 이미지에 대한 설명 생성에 이르기까지 다양한 응용 가능성이 있다.

3. Results

CLIP은 여러 작업에서 강력한 성능을 보여준다. 제로샷 학습 시나리오에서, CLIP은 종종 특정 데이터세트에서 학습된 전통적인 모델보다 우수한 성능을 발휘한다. CLIP의 임베딩은 선형 프로브를 사용하여 평가할 때도 좋은 성능을 보이는데 일반화 능력이 뛰어나다는 것을 나타낸다. 또한 CLIP은 다양한 데이터 분포에서 높은 성능을 유지하여 변화에 잘 적응할 수 있다.

4. Conclusion

CLIP은 대규모 웹 스케일 사전 학습을 통해 컴퓨터 비전 분야에서 혁신적인 발전을 이루었다. 다양한 작업을 수행할 수 있는 CLIP 모델은 언어 프롬프트를 통해 제로샷 전이를 가능하게 하여 탁월한 성능을 발휘한다.

profile
Fall in love with Computer Vision

0개의 댓글

관련 채용 정보