Scientific Computing을 위한 CUDA 사용법 -1

GraGrass·2024년 1월 4일

Chapter 1

1. Serial
코어 하나가 순차적으로 프로그램 순서에 따라서만 계산 수행

2. OpenMP
코어 각각이 독립적인 계산 동시 수행

3. Accelerator Model(CUDA, OpenACC..)
CPU쪽에서 계산을 하다가 loop 또는 hotspot 같은 부분을 가속기(GPU)가 할당을 받아 독립적으로 수행 후 결과값을 return

4. MPI
여러 개의 노드(여러 대의 본체)로 구성된 슈퍼컴퓨터 혹은 클러스터에서 사용. 노드 간의 데이터를 주고받는 통신 담당.

1. 특징

가속기 == 보조적 계산 장치

오프로드 방식

메모리 구조

2. Hello World (CUDA)

helloFromGPU<<<1,10>>>();

10개의 코어가 printf("Hello World From GPU\n"); 문을 동시에 수행
OpenMP, MPI는 수행 주체가 CPU 코어인 반면, CUDA의 kerenl 함수는 GPU 장치에서 실행 (Heterogeneous Programming)

3. 구조

4. CUDA Programming Model

host: CPU & 시스템 메모리

device: GPU & GPU 메모리

1. CPU vs GPU

CPU: Low Latency, Low Throughput

Low latency 위한 큰 cache 필요
low latency = 반응 속도가 빠르다, 지연시간이 작다 = 어떤 일을 시켰을 때 즉각적으로 답을 낼 수 있다
Tens of ALUs(ILP가 제한적)
서버용 CPU라 해도 100개 이내의 코어를 가지게 됨
복잡한 분기처리, 비 순차(out-of-order), Speculative 실행 등 범용 목적

GPU: High Latency, High Throughput

2. Data Parallelism in GPU

CPU: SIMD

GPU: SIMT

올해는 진짜 갓생 산다