GPU 하드웨어 스펙 알아보기 🖥️
이번에는 GPU 하드웨어와 학습 방식에 대해 간단히 정리해보았습니다. 아직 초기 단계라 구체적인 사양과 최적화 방법은 더 알아볼 계획이며, 추후 하드웨어 구성과 학습 전략도 세부적으로 정리할 예정입니다.
💡 메인보드와 GPU 구성
- 현재 메인보드(마더보드)는 PCI 슬롯 4개를 사용하여 GPU 4장을 장착할 수 있는 구조로 구성될 예정입니다.
- 이런 하드웨어 기반에서 GPU 학습 환경을 어떻게 최적화할지 고민 중입니다.
💡 학습 방식 정리
-
H100 사용과 Fine-Tuning
- H100 GPU는 대규모 모델 학습에 적합하며, 특히 풀파인튜닝(Fine-Tuning) 과정이 필수적입니다.
- 단일 학습이 아닌 병렬 학습을 고려하고 있습니다.
-
FSDP (Fully Sharded Data Parallel)
- 직렬 처리 방식으로, 데이터를 순차적으로 학습합니다.
- 한 GPU에서 처리 후 남은 데이터를 다음 GPU가 이어받아 학습하는 구조입니다.
-
DDP (Distributed Data Parallel)
- 병렬 처리 방식으로, 각 GPU에서 독립적으로 데이터를 학습하고 결과(weight)를 동기화합니다.
- 병렬 학습으로 속도를 높이는 데 효과적입니다.
💡 GPU 간 통신 방식
- 브릿지를 통해 GPU 간 통신이 이루어지며, 통신 방식에 따라 성능 차이가 발생합니다.
- P2P(Point-to-Point): 순차적 통신으로, GPU 간 데이터를 CPU를 통해 전송.
- NVLink: GPU 간 고속 통신을 지원하여 더 빠른 데이터 전송 가능.
통신 방식의 흐름
- P2P 방식: 데이터 → 브릿지 → GPU → 브릿지 → CPU → 브릿지 → GPU → 추론.
- NVLink 방식: 데이터 → 브릿지 → GPU → 브릿지 → GPU → 추론.
💡 NVLink 지원 여부와 정책
NVLink는 초기 GPU 모델에서는 일반적으로 제공되었지만, 이후 모델에서 지원이 제한되었다가 최근 H100과 같은 고급 GPU에서는 다시 제공되고 있습니다.
현재 관심 있는 GPU 모델들의 NVLink 지원 여부는 다음과 같습니다:
| GPU 모델 | NVLink 지원 여부 |
|---|
| RTX 3090 | ✅ 지원 |
| RTX A100 | ✅ 지원 |
| RTX 4090 | ❌ 미지원 |
| RTX 6000 ADA | ❌ 미지원 |
| H100 | ✅ NVLink 제공 |
NVLink 지원 정책에 대한 생각
Nvidia는 RTX 30 시리즈(예: RTX 3090)에서 NVLink를 제공했지만, RTX 40 시리즈와 같은 이후 제품에서는 이를 제거했는데, 이후 H100과 같은 고급 GPU에서 다시 NVLink를 제공하며, NVLink가 고가 제품에만 제한적으로 제공되는 상업적 전략을 보인다 생각해요.
일반 사용자를 배제하고 고성능 GPU 시장에서 수익을 극대화하려는 Nvidia의 정책은 많은 비판을 받고 있습니다. 특히 RTX 40 시리즈와 같은 최신 모델에서 NVLink를 제거한 뒤 다시 특정 제품군에만 도입한 점은 Nvidia의 독점적 상술을 잘 보여주는거 같습니다.
앞으로의 계획
- 아직 초기 단계라 대략적인 학습 방식과 GPU 구성만 정리했습니다.
- 앞으로는 구체적으로 하드웨어 스펙과 효율적인 학습 전략을 함께 정리할 계획입니다.
- 특히 NVLink와 같은 기술을 활용한 GPU 간 통신 최적화와, 이를 대체할 수 있는 방법도 연구할 예정입니다.
- 하드웨어 구성, 통신 방식, 학습 알고리즘을 최적화하여 성능을 극대화할 방법을 탐구해 나가겠습니다. 😊
한 걸음씩 알아가는 과정 중이며 피드백은 언제나 환영입니다. 앞으로 더 나은 정리를 위해 노력하겠습니다! 🚀