🎲[AI] GPU 기본 개념 및 Colab에서 GPU 사용하기

mandu·2025년 4월 20일

AI PyTorch

[AI]

목록 보기

2/20

1. GPU

1.1 GPU(Graphic Processing Unit)란?

Graphic 처리를 위해 등장한 연산장치로, 수천 개의 코어로 구성되어 있어 병렬 연산에 매우 강력한 장치

GPU vs CPU

항목	CPU (Central Processing Unit)	GPU (Graphics Processing Unit)
주요 목적	범용 연산, 시스템 제어	대규모 데이터 병렬 연산 처리
코어 수	적지만 고성능 (수 개 ~ 수십 개)	많고 단순한 코어 수천 개
처리 방식	직렬 처리(Sequential Processing)	병렬 처리(Parallel Processing)
단일 작업 성능	강함	상대적으로 약함
대규모 연산 성능	약함	매우 강함
사용 예시	OS 실행, 논리 제어, 앱 실행 등	딥러닝, 그래픽 처리, 행렬 연산 등
적합한 작업	복잡한 조건문, 분기 처리	반복적이고 유사한 연산의 대량 처리

요약: CPU는 똑똑한 소수의 작업자, GPU는 단순하지만 많은 작업자

TPU(Tensor Processing Unit)

구글이 개발한 특수 하드웨어로, 주로 딥러닝과 머신러닝 작업을 최적화하기 위해 설계

고속 연산: TPU는 특히 행렬 연산과 같은 수학적 작업을 빠르게 처리할 수 있어, 딥러닝 모델 학습과 추론에서 높은 성능

맞춤형 설계: CPU나 GPU보다 딥러닝에 특화된 설계로, 텐서 연산에 최적화되어 있음

구글은 자사의 TPU 하드웨어 설계를 공개X, 클라우드 등 서비스 형태로만 제공

1.2 GPU 메모리 (VRAM)란?

텐서, 모델, 연산 중간값 저장하는 공간 (GPU 내부에 위치 )

VRAM 공간이 부족하면 OOM(Out of Memory) 에러 발생
CPU는 RAM에 데이터를 저장하지만, GPU는 VRAM에 저장
CPU는 VRAM에 직접 접근 불가, GPU는 RAM에 직접 접근 불가

2. Google Colab에서 GPU 사용하기

Google Colab == 웹 브라우저에서 클라우드 CPU/GPU/TPU를 무료로 이용해 Python 코드를 실행할 수 있는 환경

2.1 GPU 사용 방법

Colab 들어가서 상단 메뉴에서 [런타임] → [런타임 유형 변경] 클릭
하드웨어 가속기 → GPU 선택
이후 아래 코드를 통해 GPU 사용 가능 여부 확인

import torch

print(torch.cuda.is_available())  # True면 GPU 사용 가능

# PyTorch, TensorFlow 등 주류 딥러닝 프레임워크는 초기부터 산업 표준이 되어버린 NVIDIA CUDA를 중심으로 개발됨

2.2 GPU 관련 함수들

PyTorch에서는 연산 대상이 되는 모든 텐서가 동일한 장치(device e.g., CPU의 RAM 혹은 GPU의 VRAM) 에 있어야 함에 유의해야 한다.
서로 다른 장치(device)에 있는 텐서끼리 연산을 수행하면 오류가 발생한다.

데이터 뿐 아니라 모델도 마찬가지임!

기능	코드 예시	설명
GPU 사용 가능 여부 확인	`torch.cuda.is_available()`	GPU 사용 가능한 환경인지 확인
텐서를 GPU로 이동	`x.cuda()` 또는 `x.to('cuda')`	CPU → GPU
텐서를 CPU로 이동	`x.cpu()` 또는 `x.to('cpu')`	GPU → CPU
장치 확인	`x.device`	텐서의 현재 장치 정보 출력
장치 일치 필수	`x + y` 연산 시	x와 y는 동일 device에 있어야 함
모델을 GPU로 이동	linear.cuda()	CPU → GPU
모델을 CPU로 이동	linear.cpu()	CPU → GPU
장치 확인	`linear.device` ❌	모델은 현재 장치를 출력하는 기능 ❌

import torch

data = [
    [1, 2],
    [3, 4]
]

# CPU 상의 Tensor 생성
x = torch.tensor(data)
print("초기 상태:", x.is_cuda)  # False

# GPU로 이동
if torch.cuda.is_available():
    x = x.cuda() # copy임
	# x = x.to('cuda')
    print("GPU 이동 후:", x.is_cuda)  # True

    # 다시 CPU로 이동
    x = x.cpu()
    # x = x.to('cpu')
    print("다시 CPU 이동 후:", x.is_cuda)  # False
    
# GPU 장치의 텐서
a = torch.tensor([
    [1, 1],
    [2, 2]
]).cuda()

# CPU 장치의 텐서
b = torch.tensor([
    [5, 6],
    [7, 8]
])

# print(torch.matmul(a, b)) # 오류 발생
# RuntimeError: Expected all tensors to be on the same device, but found at least two devices, ~~
print(torch.matmul(a.cpu(), b))

cpu(), cuda()는 새 메모리를 할당하므로 메모리 사용량에 유의

import torch

x = torch.randn(1000, 1000, device="cuda:0")  # VRAM에 생성
y = x.cpu()  # RAM에 복사본 생성
z = y.cuda()  # VRAM에 또 다른 복사본 생성
# Tip 1: 변수 이름이 같도록 설정하면 가비지 컬렉션으로 정리
# Tip 2: 사용하지 않는 텐서는 del로 정리하기

2.3 Tip: 텐서 생성부터 device(CPU, GPU) 지정해버리기

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
x = torch.tensor([[1, 2], [3, 4]], device=device)
print(x.device)  # cuda:0 또는 cpu

2.4 현재 CPU, GPU 메모리 사용량 확인

항목	CPU 메모리 (RAM)	GPU 메모리 (VRAM)
위치	시스템 전체 메모리	그래픽카드 전용 메모리
역할	일반 프로그램 실행	그래픽 처리, 딥러닝 연산
예시	엑셀, 브라우저 등	Tensor, 모델 파라미터 등

CPU 메모리 사용량 확인

import psutil

# CPU 사용률 (%)
print(f"CPU 사용률: {psutil.cpu_percent(interval=1)}%")

# 메모리 사용 현황
mem = psutil.virtual_memory()
print(f"사용 중 메모리: {mem.used / 1024**3:.2f} GB / 전체 {mem.total / 1024**3:.2f} GB")

GPU 메모리 사용량 확인

import torch

# 사용 가능한 GPU 수
print(torch.cuda.device_count())

# 현재 활성화된 GPU ID
print(torch.cuda.current_device())

# GPU 이름
print(torch.cuda.get_device_name(0))

# 실제로 현재 텐서들이 사용하고 있는 메모리 크기
print(f"Allocated: {torch.cuda.memory_allocated() / 1024**2:.2f} MB") 

# PyTorch가 미리 확보해둔 총 GPU 메모리 크기 (캐시 포함)
print(f"Reserved : {torch.cuda.memory_reserved() / 1024**2:.2f} MB")

# !pip install gputil
import GPUtil

gpus = GPUtil.getGPUs()
for gpu in gpus:
    print(f"GPU: {gpu.name}")
    print(f"사용률: {gpu.load * 100:.1f}%")
    print(f"메모리 사용량: {gpu.memoryUsed}MB / {gpu.memoryTotal}MB")

3. CUDA, NVIDIA Driver cuDNN가 뭐지?

3.1 CUDA (Compute Unified Device Architecture)

NVIDIA에서 개발한 GPU를 이용한 병렬 연산을 가능하게 해주는 컴퓨팅 플랫폼 및 프로그래밍 모델
CUDA는 GPU의 수천 개 코어를 활용해 대규모 데이터를 병렬로 처리할 수 있도록 해준다.
PyTorch, TensorFlow 등 딥러닝 프레임워크는 CUDA를 통해 GPU 연산을 수행한다.
✅ 요약: GPU 병렬 처리 플랫폼(모델)

3.2 NVIDIA Driver

GPU를 운영체제(OS)에서 인식하고 제어하기 위한 장치 드라이버
CUDA 및 cuDNN과 같은 라이브러리를 사용하려면 먼저 설치되어 있어야 한다.
OS ↔ GPU 간의 기본 통신을 담당한다.
✅ 요약: GPU를 작동시키기 위한 필수 드라이버

3.3 cuDNN (CUDA Deep Neural Network library)

NVIDIA가 제공하는 딥러닝 연산 최적화 라이브러리
CNN, RNN, BatchNorm 등의 연산을 GPU에서 고속 실행할 수 있도록 해준다.
PyTorch, TensorFlow 등 프레임워크에서 자동으로 사용되며, 성능 향상에 필수적이다.
✅ 요약: 딥러닝 연산을 GPU에서 빠르게 수행하게 해주는 라이브러리

mandu

만두는 목말라

이전 포스트

🎲[AI] Foundation model 정복

다음 포스트