한 GPU로 여러 딥러닝 모델 동시 학습 시 CPU 과부하 해결 가이드

Bean·2025년 8월 13일

CPU과부하 GPU멀티태스킹 MIG PyTorch kubernetes num_workers 데이터로딩 딥러닝

인공지능

목록 보기

108/131

1. GPU 멀티태스킹과 CPU 과부하의 관계

한 개의 GPU에서 여러 개의 네트워크 학습을 동시에 진행하는 상황을 GPU 멀티태스킹이라 합니다.
이 경우 CPU 과부하가 발생하기 쉬운 이유는 다음과 같습니다.

GPU는 강력한 병렬 연산을 처리하지만, 각 학습 프로세스는 독립적인 CPU 자원을 사용합니다.
데이터 로딩, 전처리, 모델 파라미터 업데이트 등의 연산이 동시에 발생하면서 CPU 병목이 생길 수 있습니다.

2. CPU 과부하 완화 전략

2.1 `num_workers`와 배치 사이즈 조정

멀티태스킹 환경에서는 CPU 코어와 GPU 메모리를 여러 학습 프로세스가 나눠 쓰기 때문에, 과도한 리소스 할당은 곧바로 병목으로 이어집니다.

실행 팁

CPU 코어 기반 계산
- 전체 CPU 코어 수 ÷ 학습 프로세스 수 = 프로세스별 초기 num_workers 값
- 예: 16코어 CPU + 학습 4개 → num_workers=4부터 시작
배치 사이즈 줄이기
- GPU 메모리 소모를 줄이고, 데이터 로딩 부담 완화
실시간 모니터링
- htop: CPU 코어별 사용률 균형 확인
- watch -n 1 nvidia-smi: GPU 활용률 확인

2.2 순차적 학습(Sequential Training) 고려

동시 학습이 필수적이지 않다면 한 번에 하나씩 학습하는 방식이 효율적일 수 있습니다.

장점
- CPU 과부하 방지
- GPU 메모리 넉넉하게 사용 가능 → 더 큰 배치 사이즈 적용 가능
- 디버깅 및 재현성↑
방법
- 학습 스크립트들을 순서대로 실행하는 자동화 스케줄링 적용

2.3 멀티프로세스 동기화 및 리소스 제어

여러 학습 프로세스가 CPU를 공유하면 리소스 경쟁이 심화됩니다.

리눅스에서 CPU 코어 고정

import os
os.sched_setaffinity(0, {0, 1, 2, 3})  # 0번~3번 코어만 사용

리소스 스케줄러 사용
- Kubernetes, Slurm 등을 사용해 CPU/GPU 자원 분배

2.4 GPU 분할(GPU Partitioning)

하드웨어 기능을 활용해 GPU를 논리적으로 분할하면 충돌을 방지할 수 있습니다.

MIG (Multi-Instance GPU) – A100, H100 등 최신 NVIDIA GPU 지원
각 인스턴스가 GPU 메모리·연산 유닛을 독립적으로 사용
Docker 컨테이너와 함께 사용하면 환경 격리 및 리소스 제어가 더 쉬워짐

3. 추천 접근 순서

가장 간단한 방법
- num_workers와 배치 사이즈를 줄여서 각 학습의 CPU/GPU 점유율 완화
여유가 있다면
- 순차 학습으로 CPU 병목 제거
규모가 크다면
- Slurm, Kubernetes, MIG 같은 고급 리소스 관리 기능 활용

📌 핵심 요약

멀티태스킹 = CPU 병목 가능성↑ → 리소스 분배 전략 필수
CPU 코어 기반 num_workers 계산으로 시작
GPU와 CPU 활용률을 모니터링하며 값 조정
필요 시 하드웨어 분할(MIG)·스케줄러 사용으로 확장

제가 보기에는 여기에 프로세스 수와 CPU 코어 수 기반 num_workers 추천 표랑 실험용 PyTorch 코드 예시까지 넣으면,
읽는 사람이 바로 따라 할 수 있는 "완성형 가이드"가 될 수 있습니다.
이렇게 확장하면 검색 유입도 훨씬 올라갈 거예요.

부록. `num_workers` 추천 표

CPU 물리 코어 수	학습 프로세스 수	프로세스별 추천 `num_workers`	비고
4	1	3	여유 1코어는 OS/기타 작업용
4	2	2	균등 분배
4	4	1	최소치, I/O 최적화 필요
8	1	7	코어 하나는 시스템 여유
8	2	4	CPU 점유 균형
8	4	2	병목 방지
8	8	1	멀티프로세스 부담 큼
16	1	15	대규모 배치 가능
16	2	8	GPU 2개 or 멀티 태스킹
16	4	4	안정적인 초기값
16	8	2	고속 SSD 필수
32	1	31	대규모 데이터 적합
32	4	8	일반적인 HPC 설정
32	8	4	I/O 튜닝 병행 필요
32	16	2	최소 권장치

📌 설정 팁

계산 공식
```
추천 num_workers ≈ floor( (CPU 물리 코어 수) / (프로세스 수) )
```
여유를 위해 1코어는 OS와 기타 백그라운드 작업용으로 남겨둠.
물리 코어 vs 논리 코어
- lscpu 또는 htop에서 물리 코어 수 확인
- 하이퍼스레딩이 활성화된 경우, 물리 코어 수 기준으로 계산하는 것이 안정적
디스크 I/O 속도 고려
- NVMe SSD 환경 → num_workers를 공식보다 조금 높여도 OK
- HDD 환경 → 공식보다 낮춰야 CPU가 I/O 대기 상태로 묶이는 걸 방지
모니터링 필수
- htop에서 CPU 코어 사용률 균등 확인
- nvidia-smi로 GPU idle time 확인 후 조정

Bean

AI developer

이전 포스트

LLM 추론 비용 구조 완벽 이해: 인풋과 아웃풋은 왜 다르게 과금될까?

다음 포스트

한 GPU로 여러 딥러닝 모델 동시 학습 시 CPU 과부하 해결 가이드

인공지능

1. GPU 멀티태스킹과 CPU 과부하의 관계

2. CPU 과부하 완화 전략

2.1 `num_workers`와 배치 사이즈 조정

2.2 순차적 학습(Sequential Training) 고려

2.3 멀티프로세스 동기화 및 리소스 제어

2.4 GPU 분할(GPU Partitioning)

3. 추천 접근 순서

📌 핵심 요약

부록. `num_workers` 추천 표

📌 설정 팁

LLM 추론 비용 구조 완벽 이해: 인풋과 아웃풋은 왜 다르게 과금될까?

지식 증류(Knowledge Distillation) 쉽게 이해하기

0개의 댓글

한 GPU로 여러 딥러닝 모델 동시 학습 시 CPU 과부하 해결 가이드

인공지능

1. GPU 멀티태스킹과 CPU 과부하의 관계

2. CPU 과부하 완화 전략

2.1 num_workers와 배치 사이즈 조정

2.2 순차적 학습(Sequential Training) 고려

2.3 멀티프로세스 동기화 및 리소스 제어

2.4 GPU 분할(GPU Partitioning)

3. 추천 접근 순서

📌 핵심 요약

부록. num_workers 추천 표

📌 설정 팁

LLM 추론 비용 구조 완벽 이해: 인풋과 아웃풋은 왜 다르게 과금될까?

지식 증류(Knowledge Distillation) 쉽게 이해하기

0개의 댓글

2.1 `num_workers`와 배치 사이즈 조정

부록. `num_workers` 추천 표