open clip 계획

우병주·2025년 2월 18일

groupvit는

CC12M + YFCC14M으로 학습함. 이건 가능한 스케일일까?
batch=4096, 30 epoch 돌림
ViT-S/16급 모델, 224 x 224

HDD에 넣는다면, 고려할 요소

dataloader의 shuffle=False
num_workers를 8 정도로 하자 (4-8) 그 이상은 성능 저하 가능성
prefetch_factor=2 설정
tar파일을 크게 유지 - like 5GB

python -m open_clip_train.main \
    --save-frequency 1 \
    --zeroshot-frequency 1 \
    --report-to tensorboard \
    --train-data="/path/to/train_data.csv"  \
    --val-data="/path/to/validation_data.csv"  \
    --csv-img-key filepath \
    --csv-caption-key title \
    --imagenet-val=/path/to/imagenet/root/val/ \
    --warmup 10000 \
    --batch-size=128 \
    --lr=1e-3 \
    --wd=0.1 \
    --epochs=30 \
    --workers=8 \
    --model RN50

sfcn reducing:

given:
input: (B, C=784, H=768, W=768)
prob: (B, 9, H, W)
sp_h: 16
sp_w: 16
-> 16이 아닐수도 있으나, general하게 동작함 - 각각이 한 superpixel grid의 가로변 세로변이면 됨.

우병주

이전 포스트

dgss

다음 포스트

open clip 계획

dgss

0225

0개의 댓글