nvidia-smi로 GPU 사용량, 메모리 사용량, 온도, 팬 속도 등을 확인할 수 있다.
출력은 크게 세 부분으로 나눌 수 있다.
- 상단 정보: NVIDIA 드라이버 및 CUDA 버전 정보.
- GPU 상태: 각 GPU의 상태 정보.
- 프로세스 정보: 각 GPU에서 실행 중인 프로세스 정보.
NVIDIA 드라이버 및 CUDA 버전 정보
Mon Jul 8 12:03:16 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI xxx.xx.xx Driver Version: yyy.yy.yy CUDA Version: zz.z |
NVIDIA-SMI 버전: xxx.xx.xx
드라이버 버전: yyy.yy.yy
CUDA 버전: zz.z
각 GPU의 상태 정보
(예시)
| 0 NVIDIA RTX A5000 On | 00000000:01:00.0 Off | Off |
| 30% 31C P8 16W / 230W | 5MiB / 24564MiB | 0% Default |
GPU 0: NVIDIA RTX A5000
Persistence-M: On
Bus-Id: 00000000:01:00.0
Disp.A: Off (디스플레이 연결 없음)
Volatile Uncorr. ECC: Off (비정정 ECC 에러 없음)
Fan: 30% 속도
Temp: 31°C
Perf: P8 (최대 절전 모드에 가까움)
Pwr
/Cap: 16W 사용 중 / 230W 최대 전력
Memory-Usage: 5MiB 사용 중 / 24564MiB 총 메모리
GPU-Util: 0% (사용되지 않음)
Compute M.: Default
각 GPU에서 실행 중인 프로세스 정보
(예시)
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| No running processes found |
+---------------------------------------------------------------------------------------+
GPU: GPU 인덱스 번호.
GI, CI: MIG 인스턴스 ID.
PID: 프로세스 ID.
Type: 프로세스 유형 (Compute, Graphics 등).
Process name: 프로세스 이름.
GPU Memory Usage: 해당 프로세스가 사용하는 GPU 메모리 양.