DeepSpeed

seongyun·2025년 8월 4일

deepspeed 라이브러리 분산학습 파인튜닝

Hancom Project

목록 보기

12/12

DeepSpeed 파인튜닝 시도와 CPU 사양 문제

1. 실제 파인튜닝 환경

모델 및 하드웨어 사양:

모델: DeepSeek-Coder-6.7B-Instruct
GPU: AWS EC2 A10G 22GB
CPU: AMD EPYC 7R32 (4 cores 사용)
추정 인스턴스: G5.xlarge (4 vCPU, 16GB RAM)
학습 설정: 4-bit QLoRA + DeepSpeed ZeRO Stage 2 + CPU Offload

2. DeepSpeed 적용 시도의 기술적 성공

파인튜닝은 초기에 기술적으로 성공적으로 시작함:

환경 구성: DeepSpeed + HuggingFace Trainer 조합 정상 초기화
학습 진행: 약 10초/스텝으로 안정적 학습 시작
메모리 최적화: 4-bit 양자화와 ZeRO Stage 2가 정상 작동
체크포인트: 정상적인 모델 저장 및 로깅 확인

{
    "train_batch_size": 8,
    "train_micro_batch_size_per_gpu": 4,
    "gradient_accumulation_steps": 2,
    "gradient_clipping": 1.0,
  
    "zero_optimization": {
      "stage": 2,
      "offload_optimizer": {
        "device": "cpu",
        "pin_memory": true
      },
      "overlap_comm": true,
      "reduce_bucket_size": 5e8
    },
  
    "fp16": { "enabled": true },
    "wall_clock_breakdown": false
}

3. CPU 사양 부족으로 인한 심각한 문제 발생

3.1 메모리 요구사항 vs 실제 환경

DeepSpeed ZeRO-2 + CPU Offload의 실제 메모리 요구사항:

GPU 메모리: 21.6GB (A10G 22GB로 충분)
CPU 메모리: 98.4GB 필요 vs 16GB 가용
메모리 부족량: 82.4GB 부족

메모리 구성 요소 분석:

옵티마이저 상태 (Adam): 49.9GB
마스터 가중치 (FP32): 25.0GB
그래디언트 버퍼: 12.5GB
DeepSpeed + 시스템 오버헤드: 11.0GB

3.2 실제 발생한 시스템 장애

인프라 수준 문제:

메모리 포화: 16GB RAM으로는 98.4GB 요구사항 충족 불가능
디스크 스와핑: RAM 부족으로 디스크 thrashing 발생 → 극심한 성능 저하
OOM 위험: Linux 커널의 메모리 부족 시 프로세스 강제 종료
CPU 병목: 4 코어로는 DeepSpeed의 CPU 집약적 Adam 연산 처리 한계

운영상 어려움:

시스템 응답성 저하: SSH 접속 지연 및 모니터링 도구 실행 불가능
학습 중단 위험: 시스템 불안정으로 인한 프로세스 중단 가능성
전체 인스턴스 마비: CPU 과부하로 인한 시스템 전체 성능 급락

4. 분산학습을 위한 권장 CPU 사양

4.1 AWS G5 인스턴스별 적합성 분석

인스턴스 타입	vCPU	RAM	DeepSpeed 적합성
g5.xlarge	4	16GB	✗ 부족 (82.4GB 부족)
g5.2xlarge	8	32GB	✗ 부족 (66.4GB 부족)
g5.4xlarge	16	64GB	✗ 부족 (34.4GB 부족)
g5.8xlarge	32	128GB	✓ 적합

4.2 권장 최소 사양

DeepSpeed ZeRO-2 + CPU Offload 기준 (6.7B 모델):

CPU: 16+ 코어 (AMD EPYC 또는 Intel Xeon)
RAM: 128GB 이상 (DDR4/DDR5)
GPU: 22GB+ VRAM (A10G 수준)
스토리지: NVMe SSD (빠른 스와핑 지원 시)

5. 실용적 해결 전략

5.1 하드웨어 최적화 방안

g5.8xlarge로 업그레이드 (128GB RAM, 32 vCPU)
메모리 최적화 인스턴스 고려 (R5/R6 시리즈)
다중 GPU 환경으로 메모리 분산 처리

5.2 소프트웨어 최적화 방안

CPU 오프로드 비활성화: GPU 메모리만 활용하여 시스템 안정성 확보
배치 사이즈 축소: 8 → 2 또는 1로 줄여 메모리 사용량 최소화
Gradient Accumulation: 효과적 배치 사이즈 유지하며 메모리 절약
더 공격적 양자화: INT8 또는 더 낮은 정밀도 적용

5.3 모델 선택 최적화

더 작은 모델 사용: DeepSeek-Coder-1.3B 또는 3B 버전 고려
LoRA 가중치 축소: 랭크 값을 줄여 추가 메모리 사용량 감소
시퀀스 길이 단축: 1024 → 512로 줄여 활성화 메모리 절약

6. 결론

DeepSpeed 파인튜닝 시도는 기술적으로는 성공했지만, 4 CPU 코어와 16GB RAM이라는 하드웨어 제약으로 인해 실용적인 한계에 부딪힘.

"DeepSpeed ZeRO-2 + CPU Offload 기법으로 6.7B 파라미터 모델을 학습하려면 최소 128GB 이상의 CPU 메모리와 16개 이상의 CPU 코어가 필요하다"는 것이 핵심.

이는 DeepSpeed가 하드웨어 리소스에 매우 민감한 기술이며, 특히 CPU 오프로드 기능을 활용할 때는 충분한 시스템 메모리가 필수적임을 보여주는 실제 사례이다. 제한된 리소스 환경에서는 CPU 오프로드보다는 GPU 메모리 최적화와 모델 크기 조정이 더 실용적인 접근법임을 확인함.

seongyun

이전 포스트