배치 사이즈가 너무 크면 결국 큰 배치의 평균으로 수렴하기 때문에 학습에 큰 영향을 주는 특정한 데이터에 대한 정보를 학습하지 못하고 local minima에 빠질 수 있다.
따라서 learning rate가 커야 한다.
반대로 배치 사이즈가 너무 작으면 학습에 큰 영향을 주는 특정 데이터에 크게 영향을 받아서 그냥 수렴이고 뭐고 밖으로 나가버릴 수 있다.
따라서 learning rate가 작아야 한다.
실험적으로도 학술적으로도 Batch size가 크면 Learning Rate도 커야 한다.