GAIA-1: A Generative World Model for Autonomous Driving

About_work·2024년 3월 11일

딥러닝

목록 보기

14/16

6월 2023년에 우리는 자율 주행을 위한 최첨단 생성 모델, GAIA-1의 첫 시험모델을 선보였어요.
지난 몇 달 동안 우리는 GAIA-1을 최적화하여 더 높은 해상도의 비디오를 생성할 수 있게 하고, 더 큰 규모의 훈련으로 세계 모델의 질을 향상시켰어요.
GAIA-1은 자율 주행을 위해 만들어진 최첨단 생성 세계 모델
세계 모델은 환경과 그 미래 동적인 부분의 표현을 학습하여, 주변 환경에 대한 구조화된 이해를 제공함으로써, 운전 시 정보에 입각한 결정을 내릴 수 있게 해줍니다.
정확한 미래 예측은 자율 차량이 앞으로 일어날 일을 예상하고 계획할 수 있게 해주어, 도로 위에서의 안전성과 효율성을 향상시킵니다.
세계 모델을 운전 모델에 통합하면, 인간의 결정을 더 잘 이해하고 결국에는 실제 세계 상황에 더 잘 일반화할 수 있는 잠재력

GAIA-1은 비디오, 텍스트, 행동 입력을 활용하여 실제와 같은 운전 비디오를 생성
에고 차량의 행동과 장면 특징에 대한 세밀한 조절을 가능하게 함
다양한 모달리티의 본질 때문에, GAIA-1은 많은 프롬프트 모달리티와 조합으로부터 비디오를 생성할 수 있어요.
GAIA-1은 고도의 제어 가능성을 가진 실제와 같은 운전 장면의 비디오를 생성할 수 있습니다.
아래 예에서는 GAIA-1이 생성한 단편 비디오에서, 모델이 눈이 내린 도로에서의 야간 운전 데이터를 생성하는 것을 볼 수 있어요.

먼저, GAIA-1은 모든 입력을 각 모달리티(비디오, 텍스트, 행동)에 대한 전문화된 인코더를 통해 인코딩합니다. 이 인코더들은 다양한 입력 소스를 공유된 표현으로 투영합니다. 텍스트와 비디오 인코더는 입력을 이산화하고 임베딩하는 반면, 행동을 나타내는 스칼라들은 독립적으로 공유된 표현으로 투영됩니다. 이러한 인코딩된 표현은 일관된 타임라인을 공유하도록 시간적으로 정렬됩니다.

이 정렬을 따라, 모델의 핵심 구성 요소인 세계 모델이 등장합니다. 세계 모델은 자기회귀 변환기입니다. 이 변환기는 시퀀스에서 다음 세트의 이미지 토큰을 예측합니다. 이를 달성하기 위해, 변환기는 과거의 이미지 토큰뿐만 아니라 텍스트와 행동 토큰이 제공하는 문맥 정보를 고려합니다. 이 전체적인 접근 방식은 모델이 시각적으로 일관되면서도 의도한 텍스트와 행동 기반의 지침과 일치하는 이미지 토큰을 생성할 수 있게 합니다. GAIA-1의 세계 모델은 65억 개의 파라미터를 가지고 있으며, 64개의 NVIDIA A100에서 15일 동안 훈련되었습니다.

마지막으로, 비디오 디코더인 비디오 확산 모델이 사용됩니다. 이 모델은 예측된 이미지 토큰을 다시 픽셀 공간으로 변환하는 역할을 합니다. 비디오 확산 모델은 생성된 비디오가 의미 있고, 시각적으로 정확하며, 시간적으로 일관되게 유지되도록 하는 중요한 역할을 담당합니다, 전반적인 생성 콘텐츠의 품질을 향상시킵니다. GAIA-1의 비디오 디코더는 26억 개의 파라미터를 가지고 있으며, 32개의 NVIDIA A100에서 15일 동안 훈련되었습니다.

GAIA-1은 9억 개 이상의 훈련 가능한 파라미터를 가지고 있으며(6월 버전의 GAIA-1에 비해 1B 파라미터에서 증가함), 2019년부터 2023년 사이에 영국 런던에서 수집된 4,700시간의 독점적인 운전 데이터로 구성된 훈련 데이터셋을 가지고 있습니다.

About_work

새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

이전 포스트

OFFLINE VISUAL REPRESENTATION LEARNING FOR EMBODIED NAVIGATION

다음 포스트

GAIA-1: A Generative World Model for Autonomous Driving

딥러닝

OFFLINE VISUAL REPRESENTATION LEARNING FOR EMBODIED NAVIGATION

Few Shot Learning

0개의 댓글