MoCo
: Momentum Contrast for Unsupervised Visual Representation Learning
ImageNet-1M: 1000개 클래스를 가진 1.28만개의 이미지들이 있다. 이 데이터셋은 균형이 잘 맞춰진 데이터셋이고 이미지들은 물체들의 정의가 되는 모습들을 담고있다.
Instagram-1B: 인스타그램으로부터 public한 이미지들을 가져온 100만개 데이터셋이다. 이미지들은 ImageNet 카테고리들과 연관된 1500개 해시태그들이 있다. 이 데이터셋은 위의 데이터셋과 달리 엄선된 것이 아니고 long-tatiled(unbalanced) 데이터이다. 이 데이터셋은 상징적인 물체들과 scene 수준의 이미지들이다.
옵티마이저는 SGD를 사용하고 SGD 가중치 감소는 0.0001이고 SGD 가중치는 0.9이다.
1N-1M에서 8GPU로 256의 mini-batch size를 사용하고 초기 learning_rate는 0.03이다. 120과 160 epochs에서 0.1씩 곱한 learning rate로 200 epoch를 학습시켰다. ResNet-50으로 학습시켜 53시간이 걸린다.
1G-1B에서 64GPU로 mini-batch size인 1024를 사용한다. 처음 learning rate는 0.12이고 64만개 이미지들마다 0.9씩 줄여나갔다. 1G-1B의 1.4 epoch들마다 1.25만개 iteration으로 학습한다. ResNet-50으로 학습시켜서 6일이 걸렸다.