open clip 계획

우병주·2025년 2월 18일

groupvit는

  • CC12M + YFCC14M으로 학습함. 이건 가능한 스케일일까?
  • batch=4096, 30 epoch 돌림
  • ViT-S/16급 모델, 224 x 224

HDD에 넣는다면, 고려할 요소

  • dataloader의 shuffle=False
  • num_workers를 8 정도로 하자 (4-8) 그 이상은 성능 저하 가능성
  • prefetch_factor=2 설정
  • tar파일을 크게 유지 - like 5GB
python -m open_clip_train.main \
    --save-frequency 1 \
    --zeroshot-frequency 1 \
    --report-to tensorboard \
    --train-data="/path/to/train_data.csv"  \
    --val-data="/path/to/validation_data.csv"  \
    --csv-img-key filepath \
    --csv-caption-key title \
    --imagenet-val=/path/to/imagenet/root/val/ \
    --warmup 10000 \
    --batch-size=128 \
    --lr=1e-3 \
    --wd=0.1 \
    --epochs=30 \
    --workers=8 \
    --model RN50

sfcn reducing:

given:
input: (B, C=784, H=768, W=768)
prob: (B, 9, H, W)
sp_h: 16
sp_w: 16
-> 16이 아닐수도 있으나, general하게 동작함 - 각각이 한 superpixel grid의 가로변 세로변이면 됨.

0개의 댓글