: val/n02090721/00044529
val/n02092002/00004288
val/n02104029/00032043
val/n02107312/00039020

실험결과, ConvStem이 있을 수록, Cls token을 사용할수록 imagenet val은 높은것으로 보임.
PatchEmbedNorm을 사용시 ViT보다 성능이 좋지 않음
(1) PatchEmbedNorm의 방식은 중복이 너무 강함 -> 8x8 Conv로 PatchEmbedNorm을 해야할수도
(2) ViT에도 똑같이 ConvStem을 쓰는 방식 해보기 (16까지 가는 original ConvStem)
1. ViT-B-16c: 블럭 하나 빼고 ConvStem(patch_size=16)을 넣음
2. CAST-B-16p-gpool: PatchEmbedNormv2: 그냥 stride=8, kernel_size=8, no padding의 정상적인 patch embedding 적용
--
도커 접속방법
--
factory에 load_state_dict 파트에서 weight_only 파트 수정함.
--
ViTamin: Convolution stem을 초기에 다는게 왜 powerful한지 설명해주는듯 + Locked Text Tuning(LTT)의 유용성 설명)
아직 성능을 더 개선할 수 있는점:
superpixel quality에 대한 의심
학습된 모델로 해봐야 할 것들
gpool?
CAST-CLIP:
CLIP을 따라서,
gamma: [0.017, 0.023, 0.0008, 0.0046]
cos-sim: [0.83, 0.92, 0.93]
final logit: 0.04~0.06 -> all contributes samely
gap vs gpool: cos sim: 0.94