01intro / 02 Performance

초강송·2026년 4월 10일

고급컴퓨터구조

목록 보기

1/11

vacuum tube → transistor
general-purpose architecture → 초창기 com은 특정 목적(포탄 탄도, 암호 해석)으로 사용
microprocessor → CPU의 functions (ALU + control + register)를 하나의 IC에 집적
Moore’s law (1965)
- IC(=CPU)의 트랜지스터 수는(=밀도는, 집적도는) 약 2년마다 두 배로 증가
- 1970~2010, 40년간 유효

Execution time = instruction count * CPI / clock rate
- clock rate = frequency = 초당 처리할 수 있는 cycle 수
Power = C Voltage^2 Frequency
(참고) Performance per watt (전성비, 전력당 성능 비 = 성능 / 소비전력)
- clock 속도를 마구 올리면 전력 소비는 V^2 * F에 비례하여 급증 → 성능은 이렇게 빨리 늘어나지 않음 → 성능 증가폭 < 전력 증가폭: 전성비가 안 좋다.

Increasing the number of transistors

Node scaling

Dennard Scaling
- 트랜지스터를 작게 만들면 트랜지스터당 전력 소모는 줄지만 (C, V 감소), 같은 면적에 더 많은 트랜지스터를 넣을 수 있으니 면적당 전력은 유지되고 성능은 증가됨 → 즉, 같은 전력, 같은 발열 조건에서 더 많은 일을 시킬 수 있음
- 2000년대까지는 트랜지스터 집적도는 무어의 법칙에 따라 증가하고, 전력 밀도는 Dennard Scaling 덕에 유지됨 → 2000년 Power Wall 때문에 깨짐 → 트랜지스터가 너무 작아지다 보니, cpu를 사용하지 않는데도 전력 소모가 발생함

Increasing frequency

높은 frequency를 사용하려면 더 높은 voltage가 필요함 → 근데 두 개의 관계가 voltage는 exponential 하게 증가하는 관계임 → 발열이 엄청나
cpu는 불순 반도체 → 온도와 저항이 딱 반비례 혹은 비례 X, 다만 상온에선 온도 증가 → 저항 증가

Enhancing IPC

한 clock cycle에 평균 몇 개의 instruction을 수행할 수 있는지
캐시를 키워서 memory access 횟수를 줄이면 IPC 좋아짐 → 캐시 hit은 좋아지나, 한 번 access 할 때 latency나 전력 소모가 증가함
instruction/data/thread level parallelism

Increasing capacity

DRAM은 1개의 cell (1 Transistor (수문) + 1 Capacitor (전하가 저장돼 있음))로 1 bit 저장
- capacitor에 전하가 저장돼 있으면 1, 저장돼 있지 않으면 0
capacitor는 시간이 지나면 자연스럽게 전하가 새어나가는 구조라 주기적으로 모든 셀을 읽고 다시 써주는 refresh가 필요
volatile memory
반도체 공정을 미세하게 해서 cell을 더 많이 넣자 → transistor 작게 하면 leakage current 문제 발생함

Increasing bandwidth

Reducing latency

물리적으로 어려운 것이, DRAM을 읽고, 쓰는 과정 자체가 capacity 충전/방전 속도에 제한됨 → 이 속도 제한 때문에 latency를 낮추는 데 한계가 있음
애초에 DRAM은 CPU 밖에 있기 때문에 processor-memory distance가 adds delay
Processing In Memory, 연산 장치를 mem 근처에 두는 PIM 같은 게 나옴

PMU (Performance Monitoring Unit)
- cpu 내부 hardware unit
- architectural events(cpy cyle 수, cache hit/miss, branch 잘못 예측, instr 실행)등 기록
- perf, ftrace, perfetto 같은 성능 분석 tool이 바로 이 PMU counter를 읽어서 데이터 수집
perf
- kernel의 성능 counter를 이용해서 cpu, cache, memory 등 시스템 성능 프로파일링
tp, htop
- 실시간으로 cpu 메모리 사용량, 프로세스 상태 모니터링하는 터미널 기반 모니터
ftrace
- kernel 함수의 call stack 기록
perfetto
- 안드로이드에서 시스템, 앱의 성능 이벤트를 추적
ODPM (On-Device Power Monitor)
- 하드웨어의 전력 소비를 측정하는 온디바이스 전력 모니터링 도구
sysfs
- 커널 내부 상태(디바이스, 드라이버 등)을 파일 시스템 형태로 노출하는 인터페이스