젠슨 황(Jensen Huang)의 CES 2025 기조연설은 엔비디아의 혁신적인 기술과 인공지능(AI)의 미래에 대한 비전을 중심으로 진행되었습니다.
연설은 토큰의 개념에서 시작하여 엔비디아의 기술적 진화, GPU와 AI 융합, 산업 디지털화, 그리고 물리적 AI에 대한 심도 있는 논의를 포함하고 있습니다. 아래는 연설의 주요 내용을 상세히 정리한 내용입니다.
링크 : https://youtu.be/k82RwXqZHY8
- Timeline
- 0:00:00 CES 2025 Keynote Introduction
- 0:09:33 GeForce RTX
- 0:21:48 Blackwell
- 0:36:03 Agentic AI
- 0:47:05 AI PCs
- 0:52:09 Physical AI
- 1:07:38 Autonomous Vehicles
- 1:16:20 Robotics
- 1:21:37 Project DIGITS
- 1:27:20 Closing
젠슨 황은 영상을 통해 "토큰(token)"을 인공지능의 핵심 구성 요소로 소개하며, 이를 통해 AI가 세상을 이해하고 창조하는 과정을 설명했습니다.
젠슨 황은 엔비디아의 역사와 GPU의 발전 과정을 소개하며, 회사의 기술적 진화가 AI 혁신에 미친 영향을 설명했습니다.
1993년: NV1 출시로 PC에서 게임 콘솔 기능 구현.
1999년: 프로그래머블 GPU 발명으로 현대 컴퓨터 그래픽의 기반 마련.
2006년: CUDA 출시로 GPU의 프로그래밍 가능성을 확장, AI 및 과학적 계산에 활용.
2012년: AlexNet이 CUDA를 사용하여 딥러닝 혁명을 촉발.
2018년: 구글의 Transformer 모델 발표로 AI와 컴퓨팅 전체의 패러다임 전환.
Blackwell 아키텍처 기반 GPU
차세대 GPU 아키텍처
NVIDIA의 Blackwell 아키텍처는 GeForce RTX 50 시리즈에 적용된 차세대 GPU 마이크로아키텍처로, AI 연산과 그래픽 렌더링의 통합에 중점을 둔 설계로 높은 성능과 효율을 제공합니다.
트랜지스터와 연산 성능
Blackwell
은 92억 개(92B)의 트랜지스터와 4,000 AI TOPS 이상의 연산 성능을 지원하며, 이전 세대 대비 약 3배의 성능 향상을 달성했습니다. 이로써 AI 워크로드와 고성능 그래픽 처리에서 크게 진화된 퍼포먼스를 제공합니다.
용어정리
메모리 혁신
GDDR7 메모리를 탑재하여 1.8TB/s의 대역폭을 제공하며, 이전 세대 대비 두 배 이상의 데이터 처리 성능을 보장합니다. 이를 통해 고해상도 렌더링 및 복잡한 그래픽 작업에서 더욱 안정적인 성능을 제공합니다.
DLSS 4와 AI 활용
💌 이전 DLSS Versions 정리
DLSS는 Subpixel Deformation(하위 픽셀 변형)을 통해 이전 이미지의 데이터를 사용하여 미세한 디테일을 생성하고 신호 처리 과정에서 발생하는 신호 왜곡 현상, 에일리어싱 현상을 줄이는 TAAU(템포럴 안티 에일리어싱 업샘플링)를 실행하는 것입니다. (이미지 출처 : https://www.nvidia.com/en-us/geforce/news/dlss3-ai-powered-neural-graphics-innovations/)
- DLSS 2.0 💻
- 특징:
- 저해상도 원시 입력, 모션 벡터, 노출/밝기 정보를 사용.
- 텐서 코어를 활용해 일반화된 AI 학습 모델 사용.
- 대부분의 게임과 호환 가능.
- 장점:
- 시간적 아티팩트를 억제하며, 디테일을 잘 복원.
- 기존 TAAU보다 선명한 이미지를 생성 가능.
- 게임마다 별도의 학습 없이 바로 적용 가능.
- 제한사항:
- 완벽한 템포럴 솔루션이 아니며, 일부 아티팩트(예: 고스트 현상)가 여전히 발생.
- DLSS 3.0 💻
- 특징:
- 광학 흐름 가속기를 활용한 모션 보간 기능 도입.
- 두 개의 연속된 이미지를 사용해 중간 프레임을 생성하여 부드러운 움직임 구현.
- 모든 새 이미지 렌더링 시 추가 이미지 생성 가능.
- 시스템 지연 시간을 줄이기 위해 NVIDIA Reflex 통합.
- 장점:
- 네이티브 렌더링 대비 시스템 지연 시간 최대 2배 감소.
- 새로운 광학 흐름 알고리즘으로 프레임 속도를 효과적으로 두 배 증가.
- 제한사항:
- RTX 40 시리즈 이상에서만 사용 가능.
- DLSS 3.5 💻
- 특징:
- 광선 재구성 기능(Ray Reconstruction) 도입.
- 여러 노이즈 제거 알고리즘을 단일 AI 모델로 대체.
- 버전 3.0 대비 5배 더 큰 데이터 세트로 학습된 모델 활용.
- 장점:
- 고품질 광선 추적(Ray Tracing)을 위한 디테일 복원과 이미지 개선.
- 다양한 알고리즘 통합으로 효율적이고 일관된 결과 제공.
- 적용 가능 GPU:
- RTX 40 시리즈 외에도 이전 RTX GPU에서도 사용 가능.
차세대 DLSS, DLSS Multi Frame Generation의 프레임 페이싱 요구 사항
을 지원하기 위해 Blackwell 아키텍처는 향상된 하드웨어 플립 미터링 기능으로 구축되어 원활한 고품질 경험에 필요한 속도와 정확성을 제공합니다.
AI 기반 DLSS 4(Deep Learning Super Sampling):
최신 버전인 DLSS 4는 멀티 프레임 생성(Multi Frame Generation) 기능을 도입하여 기존 렌더링된 한 프레임당 최대 3개의 추가 프레임을 AI로 생성합니다. 이를 통해 최대 8배의 성능 향상을 이루며, 4K 해상도에서도 240fps의 완벽한 레이 트레이싱 게임 경험을 제공합니다.
업스케일링 및 효율성:
DLSS 4는 낮은 해상도로 렌더링된 이미지를 AI를 통해 고해상도로 업스케일링하여 프레임 레이트를 크게 개선합니다. 렌더링해야 할 픽셀 수를 약 6%로 줄이며, AI가 나머지를 생성하여 리소스 효율을 극대화합니다.
지원 게임:
Cyberpunk 2077, Alan Wake 2를 포함한 75개 이상의 게임과 애플리케이션에서 DLSS 4를 지원합니다.
AI와 GPU의 융합
AI 연산 통합:
Blackwell GPU는 셰이더 코어와 텐서 코어를 활용하여 뉴럴 네트워크 연산을 지원하며, 복잡한 AI 알고리즘과 그래픽 렌더링을 실시간으로 처리할 수 있는 성능을 제공합니다.
Neural Compression 기술:
Blackwell은 Neural Texture Compression과 Neural Material Shading 기술을 통해 고품질 텍스처와 머티리얼을 효율적으로 생성 및 압축합니다. 이러한 기술은 그래픽 디테일과 현실감을 극대화하며, 그래픽 리소스를 절약하는 데 기여합니다.
GeForce RTX 50 시리즈 주요 모델
NVIDIA의 차세대 GPU 라인업으로, 고성능 AI 연산 및 그래픽 렌더링을 지원하는 Blackwell 아키텍처를 기반으로 설계되었습니다.
😵 새 RTX 5070 시리즈는 RTX 4090시리즈의 Performance라고 ㄷㄷ
RTX 5070 Laptop
젠슨 황은 AI 발전을 위한 세 가지 주요 스케일링 법칙을 설명했습니다.
프리트레이닝(Pre-training):
포스트트레이닝(Post-training):
테스트타임 스케일링(Test-time Scaling):
NVLink 기술과 데이터 센터 연결
💬 NVLink 72의 하드웨어 특징
- 구성:
- 36개의 Grace CPU
- 72개의 Blackwell GPU
- 576개의 메모리 칩, 총 14TB의 HBM 메모리
- 1.2PB/s의 메모리 대역폭
- 물리적 규모:
- 무게 1.5톤, 약 60만 개의 부품
- 2마일(약 3.2km)의 구리 케이블로 연결
- 전 세계 45개 공장에서 생산 및 조립.
포토타임 가지신 젠슨 황 CEO님 ㅋㅋㅋ (aka Captin NVIDIA)
"하나의 거대한 칩"의 비유
위에서 말한 것처럼 NVLink 72는 "전체 시스템이 하나의 거대한 칩처럼 작동하도록 설계"되었으며, 이를 통해 대규모 AI 모델 학습 및 추론에 필요한 연산 성능과 확장성을 극대화할 수 있습니다.
만약 실제로 이러한 크기의 칩을 단일로 제작한다면 생산 수율과 제조 공정의 어려움이 커지지만, NVIDIA는 NVLink와 HBM 메모리를 활용하여 이를 여러 GPU와 메모리를 결합한 하나의 모듈처럼 구성했습니다.
💬 NVLink 72 기술적 구현의 특징
- NVLink Spine 구조
- GPU 간 초고속 데이터 전송을 위한 중앙 연결 구조
- 모든 GPU가 마치 단일 칩처럼 작동하도록 설계
- 대규모 AI 모델 학습과 추론에 최적화
- 시스템 통합
- 여러 GPU와 메모리를 하나의 통합 시스템으로 구성
- 단일 칩 제작의 한계를 분산 시스템으로 해결
- 고속 데이터 전송과 처리를 위한 최적화된 설계
- 확장성과 성능
- 대규모 AI 워크로드 처리에 최적화
- GPU 간 지연 시간 최소화
- 시스템 전체가 단일 칩처럼 효율적으로 작동
NVIDIA는 Agentic AI의 강력한 기능과 소프트웨어 스택을 통해 다양한 AI 활용 사례를 지원하고 있습니다.
1. Agentic AI 개념
2. NVIDIA의 소프트웨어 스택
NVIDIA가 제공하고자 하는 핵심은 엔터프라이즈 및 AI 활용 환경에서의 "Agentic AI" 생태계 구축입니다.
이를 위해 NVIDIA는 다음과 같은 요소를 제공하고 통합하고자 합니다 (3가지) :
1) NVIDIA NIM (AI Microservices):
2) NVIDIA NeMo:
3) NVIDIA AI Blueprints:
🦾 Llama Nemotron 모델:
- Meta의 Llama 3.1 기반으로 엔터프라이즈 환경에 최적화된 언어 모델 라인업을 제공합니다.
- 다양한 크기의 모델:
Nano(소형)
: 빠른 응답성과 저지연성을 필요로 하는 PC 및 엣지 장치에 적합.Super(중형)
: 성능과 효율성을 모두 만족하는 모델.Ultra(대형)
: 데이터 센터 수준의 높은 정확도와 처리 성능을 위한 모델.- 특징:
- 멀티 리더보드 1위 수준의 성능 제공.
- 기업 환경에 최적화된 파인튜닝 및 효율적 배포 지원.
💻 NVIDIA의 에코시스템과 파트너십
- NVIDIA는 다양한 산업과 IT 생태계에서 Agentic AI의 확산과 실질적인 활용을 위해 폭넓은 파트너십을 구축하고 있습니다.
- 이를 통해 기업과 조직이 AI 기반의 도구와 플랫폼을 더 쉽게 통합하고 활용할 수 있도록 돕고 있습니다.
3. AI on Windows (WSL2)
NVIDIA의 발표에서 Windows WSL2(Windows Subsystem for Linux 2) 기반으로 AI를 실행하고 활용하는 방법에 대해 설명하며, 이를 통해 Windows PC가 차세대 AI 플랫폼으로 자리 잡는 비전을 제시했습니다.
(참고) WSL(Windows Subsystem for Linux)은 Windows에서 Linux 환경을 실행할 수 있게 해주는 Microsoft의 핵심 기술입니다.
3.1. Windows WSL2와 NVIDIA AI 스택 통합
3.2. AI PC 시대를 위한 준비
Physical AI 개념
입력(Input):
출력(Output):
(Preliminaries, 사전 조건) 물리 세계의 이해:
'Cosmos': 세계 기반 모델 (World Foundation Model)
NVIDIA의 Cosmos는 물리적 AI(Physical AI)를 위해 개발된 세계 기반 모델 플랫폼으로, 물리적 세계의 데이터를 시뮬레이션하고 이를 AI 학습 및 테스트에 활용할 수 있도록 설계되었습니다. Cosmos는 AI 모델의 성능과 물리적 환경의 상호작용을 극대화하는 데 초점을 맞추고 있으며, 물리 세계에서 데이터 수집의 높은 비용 문제를 해결하기 위해 합성 데이터 생성과 실시간 토큰 생성을 지원합니다.
Cosmos 모델의 주요 특징
WFM (World Foundation Model):
고급 합성 데이터 생성:
실시간 생성 및 다중 센서 뷰:
Comos 내부 World Foundation Models:
Omniverse와 Cosmos의 결합
Omniverse:
NVIDIA의 실시간 3D 시뮬레이션 엔진인 Omniverse와 Cosmos를 결합하여, 가상 환경에서 물리적 세계의 정확한 시뮬레이션을 가능하게 합니다.
Ground Truth 데이터 생성:
- Cosmos는 AI 모델에 필요한 고품질의 그라운드 트루스 데이터를 생성하여 로봇 및 AI 시스템의 정확도를 향상.
멀티버스 시뮬레이션:
젠슨황은 NVIDIA Robotics 3 Computer Solution을 제시합니다.
DGX
, Omniverse with Cosmos
, AGX
세 가지 컴퓨팅 플랫폼을 활용하여, AI 모델 학습부터 시뮬레이션 및 배포까지 포괄적인 프로세스를 지원합니다.🔀 솔루션 워크플로우
- DGX → Omniverse with Cosmos:
- 훈련된 AI 모델을 Omniverse 및 Cosmos 환경에서 시뮬레이션하여 성능 검증.
- 다양한 시나리오를 테스트하고 모델의 안정성을 높임.
- Omniverse with Cosmos → AGX:
- 시뮬레이션에서 검증된 AI 모델을 엣지 디바이스로 배포.
- 차량, 로봇 등의 실제 환경에서 AI 모델이 실시간으로 동작.
💡 사례 소개 : KION & Accenture: 디지털 트윈을 활용한 창고 관리 혁신 사례
KION
과Accenture
는 NVIDIA와 협력하여 창고 관리 및 물류 운영을 혁신하기 위한 디지털 트윈 솔루션을 개발했습니다.- 이 솔루션은 NVIDIA의 Omniverse와 Cosmos 플랫폼을 활용하여 창고 환경을 디지털로 복제하고, 다양한 시뮬레이션 및 최적화를 통해 운영 효율성을 극대화하는 것을 목표로 했습니다.
- KION과 Accenture는 디지털 트윈을 통해 다양한 산업 시나리오에 솔루션을 확장할 예정이며, 이를 통해 더 많은 공장과 창고에서 스마트 팩토리를 구현하고자 합니다.
🔍 (심화) 디지털 트윈 구축 과정
- (1) Omniverse를 활용한 창고 환경의 디지털화
- CAD, 포인트 클라우드 데이터, 생성된 3D 데이터를 기반으로 창고의 실제 환경을 디지털로 복제.
- 창고 내부의 로봇, 물류 흐름, 선반 배치 등을 디지털 트윈 모델로 구현.
- (2) Cosmos를 통한 시뮬레이션 및 최적화
- Cosmos 플랫폼에서 다양한 물리적 환경과 물류 시나리오를 시뮬레이션.
- 날씨, 수요 변동, 경로 최적화와 같은 실제 상황의 변화에 따른 시뮬레이션 수행.
- 예측 가능한 물류 문제를 식별하고 최적화된 운영 방안을 도출.
- (3) 운영 효율성 분석
- 작업자의 동선, 로봇 경로, 물류 흐름 등을 분석하여 효율성을 높이는 시뮬레이션 실행.
- KPI(핵심 성과 지표) 측정을 통해 잠재적인 병목 현상을 제거하고 생산성을 향상.
자율주행차 산업
⚡ Thor 프로세서: 범용 로봇 프로세서
- NVIDIA의 Thor 프로세서는 자율주행차와 범용 로봇의 핵심 프로세서로 설계되었습니다. 이는 차량과 로봇에 필요한 방대한 센서 데이터를 처리하고 AI 기반 의사결정을 수행할 수 있도록 강력한 성능과 효율성을 제공합니다.
주요 특징:
활용 분야:
🌳 NVIDIA Isaac Groot: 로봇 학습 및 개발의 핵심 플랫폼
- Isaac Groot는 물리적 AI 기반 로봇의 학습과 개발을 지원하기 위한 NVIDIA의 포괄적 플랫폼입니다.
주요 기능:
로봇 데이터 증강:
시뮬레이션 기반 학습:
소프트웨어 검증:
🌐 DGX의 혁신
🌐 소형 AI 슈퍼컴퓨터 ‘Digits’ (프로젝트명)
주요 사양 및 기능
활용 목표
엔비디아는 GPU 기술의 혁신에서 시작해 AI, 자율주행, 로봇 공학, 디지털 트윈 등 다양한 첨단 분야로의 확장을 통해 기술 리더십을 공고히 하고 있습니다. CES 2025에서 발표된 내용은 엔비디아가 AI와 물리적 세계의 융합, 디지털 트윈 기술, 자율주행, 로봇 공학 등에서 대규모 변화를 주도하며 미래를 설계하고자 하는 명확한 비전을 제시했습니다.
특히, Blackwell 아키텍처와 Cosmos 플랫폼, 그리고 Agentic AI와 같은 새로운 기술들은 AI 생태계 전반에 걸쳐 더욱 강력하고 실질적인 활용 사례를 제공할 것으로 기대됩니다. 엔비디아의 이번 발표는 단순한 기술 소개를 넘어, AI 기반의 미래를 구체화하고 실현하려는 의지를 보여준 자리였습니다.
다음 Keynote들도 이어서 정리해보겠습니다 💌