배치 사이즈는 딥러닝 모델이 한 번의 학습 스텝에서 처리하는 데이터 샘플 수를 말합니다. 예를 들어, batch size가 32라면, 모델은 32개의 데이터를 보고 손실(loss)을 계산하고, 그에 대한 기울기(gradient)를 계산해 파라미터를 업데이트합니다.
장점
단점
장점
단점
작은 배치 사이즈는 일반화에 유리하다고 알려져 있지만, 너무 작을 경우 (예: batch size 2나 4) 오히려 다음과 같은 문제가 생길 수 있습니다:
📌 실제 연구에서도 확인됨:
- "Revisiting Small Batch Training for Deep Neural Networks" (Masters & Luschi, 2018): 너무 작은 배치는 학습과 일반화 모두에 좋지 않다는 결과
적절한 배치 사이즈는 다음 요소에 따라 달라집니다:
항목 | 권장 배치 사이즈 |
---|---|
이미지 분류 (CNN) | 32 ~ 256 |
자연어 처리 (RNN/Transformer) | 16 ~ 64 |
작은 데이터셋 | 8 ~ 32 |
대용량 GPU 사용 | 128 ~ 1024 |
⚠️ Batch Size를 키울 땐 Learning Rate도 함께 조정해야 합니다.
일반적으로는linear scaling rule
(batch size를 2배 → learning rate도 2배) 사용
배치 사이즈 | 일반화 성능 | 수렴 속도 | 메모리 사용 | 특징 |
---|---|---|---|---|
너무 작음 (2~4) | ❌ 불안정 | ❌ 느림 | ✅ 낮음 | 과도한 노이즈로 역효과 가능 |
적절 (32~128) | ✅ 안정적 | ✅ 빠름 | ✅ 효율적 | 대부분의 경우 추천 |
너무 큼 (1024 이상) | ❌ 과적합 위험 | ✅ 빠름 | ❌ 높음 | 일반화 성능 주의 필요 |