Stochastic GD
한번에 1개의 sample만으로 gradient를 update(batch size = 1)
Mini-batch GD
sub sample로 update(batch size = 128, 256 등등)
Batch GD
whole data로 updatd(batch size = whole data)
large-batch method는 sharp minimizer에, small-batch method는 flat minimizer로 converge한다
출처: https://arxiv.org/abs/1609.04836
목적: testing function의 minimum을 찾는것
flat min은 test func.가 train func.에서 조금 멀어져도 적당히 작은 값이 나옴
그러나 sharp min은 test func.가 train func.에서 조금만 멀어져도 굉장히 높은 값이 나옴
--> flat min이 generalization이 좋다
SimCLR의 unsupervised learning 방식