Image -> Image encoder -> Image embedding
Text -> Text encoder -> Text embedding
Image embedded data @ Text embedded data => contrastive learning
contrastive loss가 줄어드는 방향으로 학습 진행
여기서 이해가 안된 점.
Image embedding이 어떤 식으로 되는지.
resnet 기반 image encoder는 특징을 추출해서 1차원 벡터화 시켜서 embedding
질문 1. vit 기반(transformer 기반)은
우선 패치로 나눈것을 sequential하게 ->선형 임베딩->(features,1벡터)? + position embedding -> transformer encoder 여기까지가 CLIP의 Image encoder 인지?
질문 3. multi head attention을 지날떄 어떻게 되는건지
질문 2. transformer는 계속 쌓을 수 있다.