
안녕하세요, K-ROAD 6기 주지윤입니다.
저는 NVIDIA에서 발표한 Alpamayo-R1 논문을 간단하게 리뷰하도록 하겠습니다.
Alpamayo-R1은 이후 CES 2026에서 공개된 NVIDIA의 자율주행 연구 플랫폼 / 개방형 자율주행 포트폴리오 Alpamayo 1의 기반이 되는 모델이기도 합니다.
Alpamayo-R1은 NVIDIA가 CES 2026에서 발표한 차세대 자율주행 포트폴리오의 핵심 모델로, 이번 CES에서 제시된 ‘물리적 AI(Physical AI)’ 비전이 실질적으로 구현된 사례라 할 수 있습니다. 물리적 AI는 디지털 환경에 국한되지 않고 실제 물리적 세계와 직접 상호작용하며 스스로 판단하고 행동하는 지능형 시스템을 의미하며, 이는 Alpamayo-R1이 기존 자율주행 모델과 구별되는 핵심 배경이 됩니다.
기존의 엔드투엔드(End-to-End, E2E) 자율주행 방식이 대규모 주행 데이터의 입력–출력 매핑에 주로 의존해 왔으며, 그 과정에서 모델의 판단 근거가 명시적으로 드러나지 않는 한계가 있었습니다. Alpamayo-R1은 이러한 한계를 넘어, 주행 상황에 대한 판단 근거를 논리적으로 설명할 수 있는 ‘추론 기반 자율주행’이라는 새로운 패러다임을 제시했습니다. 더 나아가 NVIDIA는 자율주행 연구를 위한 모델과 데이터셋, 시뮬레이션 환경을 오픈 소스로 공개하며 단순한 기술적 성과를 넘어 연구 생태계 전반의 표준을 주도하려는 전략을 분명히 했습니다.
자율 주행 시스템의 발전은 End-to-End 주행 프레임워크로의 패러다임 전환을 겪고 있으며, 이러한 전환은 업계에서 점차 수용되고 있습니다. 기존의 End-to-End 자율주행 모델은 모방 학습을 통해 방대한 데이터를 학습하며 고속도로 및 정상적 주행 환경에서는 상당히 발전했습니다.
그러나 데이터가 적어 생소한 상황 등과 같은 경우에서는 모델이 단순히 현상을 따라 할 뿐, 왜 그런 행동을 해야 하는지 구체적인 근거를 내리지 못하여 안정적인 의사결정이 어렵다는 문제가 남아 있었습니다.
NVIDIA는 이러한 문제를 해결하기 위해 Vision-Language-Action(VLA) 모델인 Alpamayo-R1을 제안했습니다. Alpamayo-R1은 추론과 행동 예측을 통합적으로 설계하여, 기존 방식보다 드문 상황에서도 안전한 의사결정 능력의 향상을 보여 줍니다. 이 모델은 자동차가 단순히 길을 따라가는 것을 넘어, 주변 상황을 분석하고 인과관계에 따라 추론한 뒤 최적의 경로를 생성합니다.
이 논문은 추론 기반 의사결정을 통해 더 안정적인 주행 계획을 생성하는 것을 목표로 인지와 판단을 연결하는 새로운 학습 구조를 제안합니다.
기존의 End-to-End 자율주행 모델은 방대한 데이터 학습을 통해 발전해 왔으나, 다음과 같은 고질적인 문제를 안고 있습니다.
본 연구는 단순한 모방 학습의 한계를 넘어, 해석 가능한 추론과 정밀한 제어를 결합하여 Level 4 자율주행의 실질적인 구현을 목표로 합니다. 구체적인 목표는 다음과 같습니다.
Alpamayo-R1은 다음의 세 가지 요소를 제시합니다.
![]() |
|---|
| Alpamayo-R1 아키텍처 개요. 다중 카메라 이미지와 에고-모션(자차 거동 데이터)는 시각적 토큰을 산출하는 비전 인코더에 의해 처리되고, 그것들은 텍스트 입력과 함께 VLM 백본에 입력된다. 모델은 자기회귀적으로 사고 사슬(chain-of-thought) 추론과 이산 경로 토큰을 생성한다. 추론 시, flow matching을 사용하는 행동 전문가 디코더는 추론 결과에 따라 이산 경로 토큰을 연속적이고 운동학적으로 실행 가능한 waypoint로 변환한다. |
VLM 백본(Backbone): NVIDIA의 Cosmos-Reason
→ 시각 정보 + 텍스트 기반 추론 생성
행동 전문가(Action Expert): Diffusion-based action-expert trajectory decoder
→ 실제 주행 가능한 궤적 생성
![]() |
|---|
| 제안된 구조화된 CoC 레이블링 파이프라인. (1) 클립 선별, (2) 중요프레임 레이블링, (3-5) 구조화된 CoC 레이블링의 단계로 구성되어 있다. |
![]() |
|---|
| 주행 결정과 중요 요소(인과 요인)가 CoC로 구조화되고, 상응하도록 강조되어 있는 레이블된 CoC 추론 자취(CoC reasoning traces)의 예시들 |
![]() |
|---|
| Alpamayo-R1 모델 훈련 파이프라인 개요. (1) 행동 Modality 투입, (2) 추론 유도, (3) 강화학습 기반 사후 훈련의 주요 세 단계로 이루어져 있다. |
![]() |
|---|
| AR1의 강화학습 기반 사후 훈련 프레임워크 개관. 저자는 모델이 생성한 추론 과정과 예측된 행동을 정렬하기 위해 세 가지 보상 요소들을 최적화했다: 추론의 질 (대형 추론 모델 피드백을 통해), 추론-행동 일관성, 경로의 질. |
![]() |
|---|
| 경로만 출력하거나 메타행동&경로만 출력하는 모델에 비해, Alpamayo-R1은 일반적인 시나리오와 도전적인 시나리오 모두 발전을 보였다. |
논문에서 보고된 주요 성능 결과는 다음과 같습니다
| 평가 항목 | 성능 결과 및 향상 폭 | 기존 모델 비교 | 비고 |
|---|---|---|---|
| 주행 계획 정확도 | 최대 +12% 향상 | Trajectory-only (경로 전용 모델) | 고난도 시나리오 기준 |
| 근거리 충돌률(Close encounter rate) | 상대적 -35% 감소 | Trajectory-only (경로 전용 모델) | 17% → 11%로 감소 |
| RL 후 추론 품질(Reasoning quality) | +45% 개선 | SFT (지도 학습) 전용 모델 | LRM(거대 추론 모델) critic 기준 |
| RL 후 논리-행동 일관성(Consistency) | +37% 개선 | SFT (지도 학습) 전용 모델 | 추론-행동 일치 점수(0.62→0.85) |
| 추론 지연 시간(Latency) | 약 99 ms | - | RTX 6000 Pro Blackwell 하드웨어, 실차 배포(On-vehicle) 환경 |
이 결과는 롱테일(Long-tail) 상황에서 AR1이 더 안전하고 안정적인 의사결정을 할 수 있음을 보여줍니다.
Alpamayo-R1의 중요한 의미는 다음과 같습니다
End-to-End 프레임워크로의 패러다임 전환이 본격화된 지 그리 오래되지 않았음에도 거기서 더 나아가 추론을 중심에 둔 주행 결정이라는 새로운 방향성을 제시하고 있습니다.