논문명 : Classification Done Right for Vision-Language Pre-Training
링크 : https://arxiv.org/abs/2411.03313
출간일 : 2024.11.06
저자 : Zilong Huang, Qinghao Ye, Bingyi Kang, Jiashi Feng, Haoqi Fan
소속 : ByteDance Research
인용 수 : 0
코드 : https://github.com/x-cls/superclass
Vision encoder를 사전 학습할 때 사용되는 컴퓨팅 자원을 줄이는 방법에 대한 연구
문제점
주요 과제
대규모 Image-Text 쌍의 pre-train을 위한 분류 방법
⇒ 컴퓨팅 자원에 대한 부담 감소
개요
ViT backbone - Vision encoder
Global average pooling layer
Linear layer for Logit vector ()
Classification loss with IDF

Text as Labels
Classification Head
Global average pooling
Linear layer
Logit vector
각 Subword에 대한 예측
Softmax로 변환하여 확률값 계산

데이터의 노이즈, 텍스트 데이터가 완벽하지 않은 한계
IDF
Set-Up
주요 결과
Pre-training 방법들과의 비교

CLIP과 비교
ViT-Base Backbone : SuperClass (80.2), CLIP (78.5)
ViT-Large Backbone : SuperClass (85.0), CLIP (82.7)



상단 : 모델 크기, 계산 비용 비교
하단 : 데이터 스케일 비교
Ablations
Word tokenizer VS Subword tokenizer

Subword Tokenizer 비교

Loss

IDF & Stopwords

한국어 subword tokenizer?
→ Language model의 tokenizer 떼와서 사용하면 된다. Vocab 32k 정도면 충분.
ViT가 예측값을 내는 과정이 나와있지 않음
→ 코드 상에서 proj 으로 나와있음.
ViT가 추출한 전역 특징을 서브워드의 2차원 공간에 투영하나? 그럼 의미를 어떻게 유지하는가.
→ 차원은 vocab 크기. projection으로 많이 한다. CLIP, BERT등 평균적으로 512로 투영함.