11 Memory-Centric Computing
11 Memory-Centric Computing
The return of memory wall
- H/W FLOPs는 3배 증가했는데 DRAM bandwidth나 Interconnect Bandwidth는 1.6배, 1.4배
- Model 크기나 training FLOPs는 420배, 750배 증가했는데 accelerator mem은 2배 증가
- intra/inter chip communication bandwidth가 새 bottleneck이 됨
- 요즘 decoder only model은 arithmetic intensity가 낮음 → memory-bandwidth bound임
- arithmetic intensity = # of FLOPs / # of memory operations
Memory-Centric Computing
- Computing이 Data에 의해 bound 되고 있음
- CPU는 연산 unit인데 면적의 90%를 캐시 등을 위해 사용함
- data movement Energy > computation Energy
Processing in Memory: Two Types
Processing-Near-Memory
- 설계한 computation logic을 DRAM에 추가
- data movement를 줄일 수 있음, 연구도 많이 되었음
- 새 회로나 DRAM empty 공간 필요, 구현이 어려움 (3D stacking 하면 굿)

Processing-Using-Memory
- 이미 있는 DRAM HW 구조 사용 → 간단한 bitwise 연산만을 지원 (쓰임새에 제한이 있음)
- zero data movement, less H/W changes
- DRAM은 전하량을 가지고 bit를 구분
- 연산도 전하량을 이용해서 평균 연산을 해서 AND 등을 표현
- ‘량’ 가지고 하는 거라 정확도가 높지 않음