– CPU에서 출발해 NPU까지, 사고방식의 전환으로 이해하는 AI 반도체
AI 모델은 더 이상 연구실에만 머무르지 않는다.
모바일, 엣지 디바이스, 데이터센터 전반에서 실시간 추론이 요구되고 있다.
이 변화는 자연스럽게 질문으로 이어진다.
CPU와 GPU로 충분하지 않은가?
왜 NPU라는 새로운 프로세서가 필요한가?
NPU는 AI 모델을 효율적으로 실행하도록 설계되었습니다. GPU에 비해 전력 소모가 훨씬 적고, CPU보다 AI 작업에 특화되어 있어 독립적인 AI 솔루션에 대한 수요를 충족할 수 있습니다.
즉, 인터넷이나 클라우드에 의존하지 않고도 AI 모델을 실행할 수 있습니다. 이러한 이유로 스마트폰, 노트북 등 모바일 기기에 NPU가 탑재되기 시작했습니다.
특정 연산 AI 연산에 특화되어 있어 더 빠르고 효율적인 처리가 가능

출처 : 모빌린트 테크 블로그
NPU는 셀 수없이 많은 신경세포와 시냅스로 연결되어 신호를 주고받으며 동시에 작업을 진행하는 인간의 뇌 신경세포와 유사한 작업을 진행합니다. 스스로 학습하고 판단할 수 있는 인공지능 (AI) 등이 접목되어 일명 AI 칩이라고 불리기도 하죠.
출처 : 삼성 테크 블로그
NPU에는 곱셈과 덧셈, 활성화 기능, 2D 데이터 연산 및 압축 해제를 위한 특정 모듈이 포함되어 있습니다. 특수 곱셈 및 덧셈 모듈은 행렬 곱셈 및 덧셈, 컨볼루션, 도트 곱셈 및 기타 기능 계산과 같은 신경망 애플리케이션 처리와 관련된 연산을 수행하는 데 사용됩니다.
기존 프로세서는 이러한 유형의 뉴런 처리를 완료하는 데 수천 개의 명령어가 필요하지만, NPU는 단 하나의 명령어로 유사한 연산을 완료할 수 있습니다. 또한 NPU는 네트워크 노드에 할당된 유동적인 계산 변수인 시냅스 가중치를 통해 스토리지와 계산을 통합하여 시간이 지남에 따라 조정되거나 '학습'될 수 있는 '올바른' 또는 '원하는' 결과의 확률을 나타내므로 운영 효율성이 향상됩니다.
신경 처리 장치(NPU)는 기존의 CPU와 GPU를 대체하도록 설계되지도 않았고, 대체할 것으로 예상되지도 않습니다.
출처 : IBM 블로그
이 질문에 답하려면, 연산 대상과 실행 방식의 변화를 먼저 이해해야 함.
CPU는 본질적으로 범용 계산기다.
CPU 관점의 사고는 다음 질문으로 요약된다.
다음에 어떤 명령을 실행해야 하는가?
이 사고는 운영체제, 컴파일러, 범용 애플리케이션에는 최적이지만
대규모 동일 연산 반복에는 비효율적이다.
GPU는 CPU의 한계를 병렬성으로 돌파한다.
GPU 관점의 사고는 이렇게 바뀐다.
이 연산을 얼마나 많이, 동시에 수행할 수 있는가?
GPU는 딥러닝 학습과 추론을 가능하게 만들었지만,
여전히 한계가 있다.
NPU는 사고 방식이 완전히 다르다.
NPU의 핵심 질문은 이것이다.
데이터는 어떤 경로로 흘러야 가장 효율적인가?
즉, Control Flow → Parallelism → Data Flow로의 사고 전환이다.
일반적인 NPU 아키텍처는 다음 흐름을 따른다.
Host CPU
→ Command Processor
→ DMA / Memory Controller
→ On-chip SRAM (Scratchpad)
→ Compute Array (MAC)
→ Activation / Post-processing
CPU와 달리 Instruction Pipeline보다 Data Pipeline이 중심이다.
CPU:
NPU:
이유는 명확하다.
CPU:
NPU:
NPU에서 메모리는 “자동 최적화 대상”이 아니라
컴파일 타임에 계획되는 자원이다.
NPU의 핵심은 MAC Unit의 집합이다.
Systolic 구조의 핵심은:
CPU/GPU:
NPU:
정밀도를 낮추는 이유:
Attention은 NPU가 가장 어려워하는 연산 중 하나다.
Self-Attention은 다음을 포함한다.
NPU에 불리한 이유:
즉, Attention은
이라는 NPU의 전제를 깨뜨린다.
LLM은:
NPU의 제한:
LLM 추론은:
이는 NPU의 강점인:
과 상충된다.
결과적으로:
특징:
특징:
두 회사 모두:
NPU는 CPU나 GPU의 상위 호환이 아니다.
대신:
CPU는 명령을 실행하고, GPU는 연산을 병렬화하며,
NPU는 데이터가 흐르도록 설계된 프로세서다.