데이터를 나눠 GPU에 할당 후 각 결과의 평균을 취하는 방법
Mini batch 방법과 유사한데 한번에 여러 GPU에서 수행
DataParallel: 단순히 데이터를 분배한 후 평균을 취함
DistributedDataParellel: 각 CPU마다 process 생성하여 개별 GPU에 할당