CLIP

Methodius·2024년 1월 15일

CLIP Github

CLIP Paper

Image -> Image encoder -> Image embedding
Text -> Text encoder -> Text embedding

Image embedded data @ Text embedded data => contrastive learning

contrastive loss가 줄어드는 방향으로 학습 진행

여기서 이해가 안된 점.
Image embedding이 어떤 식으로 되는지.
resnet 기반 image encoder는 특징을 추출해서 1차원 벡터화 시켜서 embedding

질문 1. vit 기반(transformer 기반)은
우선 패치로 나눈것을 sequential하게 ->선형 임베딩->(features,1벡터)? + position embedding -> transformer encoder 여기까지가 CLIP의 Image encoder 인지?

질문 3. multi head attention을 지날떄 어떻게 되는건지

질문 2. transformer는 계속 쌓을 수 있다.

0개의 댓글