[ Paper Review ] 3D-VLA: A 3DVision-Language-Action Generative World Model

Yerin·2024년 11월 29일

VLA 논문 리뷰

목록 보기
5/5

https://arxiv.org/pdf/2403.09631

[ Abstract ]

최근 VLA 모델은 2D 입력에 의존하며, 3D 세계(현실 세계)와의 통합이 부족하다. 또한, 이러한 모델은 지각에서 행동으로의 직접적인 매핑을 학습하여 행동을 예측하는데, 광범위한 역학 + 행동과 역학 간의 관계를 간과하고 있다. 반면, 인간은 미래 시나리오에 대한 상상을 통해 행동을 계획하는 형식을 갖추고 있다. 이처럼, 본 연구는 3D-VLA라는 새로운 유형의 Embodied(체화) 기반 모델을 제안한다.

구체적으로, 3D-VLA는 3D 기반 LLM을 기반으로 구축되며, 체화된 환경과 상호작용하기 위해 상호작용 토큰을 도입한다. 또한, 생성 능력을 모델에게 학습시키기 위해 Embodied Diffusion Models을 학습시키고, 목표 이미지 및 포인트 클라우드를 예측하기 위해 이를 LLM과 Alignment한다. 3D-VLA를 학습하기 위해, 기존 로봇 데이터셋에서 3D 관련 정보를 추출하여 대규모 3D Embodied Instruction 데이터셋을 수집하였다.

테스트 데이터셋에서의 실험 결과, 3D-VLA는 Embodied 환경에서의 추론, 다중 모달 생성, 계획 능력을 크게 향상시키며, 실제 응용 가능성에서 높은 잠재력을 보여준다.

[ Introduction ]

최근 2D 이미지와 Language를 기반으로 하는 VLM이 다양한 2D 공간의 Inference를 하는 데 성공했다. 이들은 RT-2와 PALM-E와 같은 구현된 모델에서 고차원적 Plan과 저차원적 Action 생성에도 활용되고 있다.

하지만, 인간이 2D 이미지 이상의 3D 물리적 세계를 이해하고 계획 및 행동을 수행하는 것처럼, 3D 이해 능력이 없이는 인간과 유사한 지능적 에이전트를 만들기 어려움이 존재한다. 기존의 모델들은 행동과 세계 역학 간의 관계를 포괄적으로 이해하지 못하며, 단순히 지각에서 행동으로의 Direct 매핑에 의존한다.

그래서 본 논문은 3D 환경과 관련된 충분한 데이터를 확보하고, 상호작용 토큰(scene, object, action 등)을 LLM 어휘에 추가하여 3D-텍스트 데이터를 혼합적으로 처리하고 더 많은 상호작용 기반의 작업을 수행할 수 있도록 확장한다.

또한, RGBD-to-RGBD 및 point-to-point 생성에 특화된 Diffusion Model을 사전 학습한다. 다양한 모달리티(이미지, 깊이 정보, 포인트 클라우드) 간의 연결을 위해 Projector를 도입, LLM 임베딩 공간과 Dffusion 디코더를 Align하였다.

- Examples from our 3D Embodied Instruction Tuning Dataset

위 그림에서 알 수 있듯이, Reasoning and Localization은 3D 환경에서 물체 및 Action을 추론하고 설명하며, 3D 정보에 기반한 작업을 수행하기 위한 데이터셋이다. Multimodal Goal Generation은 3D 데이터를 기반으로 깊이 정보, 이미지, 포인트 클라우드 등의 다중 모달 결과를 생성한 데이터셋이고, Robot Planning은 로봇 환경에서 구체적인 Task을 계획하고 실행하기 위해 만들어진 데이터셋이다.

3D-VLA는 크게 3가지 부분에 기여하였다고 볼 수 있다.

  • 3D-VLA
    3D-VLA는 3D 지각, 추론, 행동을 통합한 생성형 generative world model 기반의 새로운 3D Vision-Launage-Action 모델이다.

  • 대규모 3D 데이터셋 구축
    기존 데이터셋의 3D 정보 부족 문제를 해결하기 위해 새로운 3D 학습 데이터셋을 생성하였다.

  • 환경(Environment)과의 상호작용을 강화하기 위해 LLM 어휘에 상호작용 토큰을 추가하였다.

  • Diffusion 모델 활용
    목표 이미지 및 3D 포인트 클라우드 생성을 위해 Diffusion 모델을 훈련하고, 이를 LLM 출력과 효율적으로 Align하는 Projector를 도입하였다.

3D-VLA는 이미지, 깊이, 포인트 클라우드 기반 목표 생성, 목표 기반 계획(goal-based planning), Action 예측 등의 Task에서 기존 모델을 크게 능가하는 것을 알 수 있다.

[ 3D Embodied Instruction Tuning Dataset ]

기존의 VLM은 로봇 제어와 같은 3D 공간 추론이 필요한 Task에 한계를 가졌다. 예를 들어, “가장 먼 컵을 중간 서랍에 넣어라”와 같은 3D 공간 추론 명령을 처리하기 어렵다.

본 논문은 이를 해결하기 위해, 충분한 3D 관련 정보와 Text Instructions을 포함하는 대규모 3D Embodied Instruction Tuning Dataset을 구축하였다.

  • 데이터 구성
    3D 포인트 클라우드, 깊이 맵, 3D 경계 상자, 로봇의 7자유도(7D) Action, 텍스트 설명 등.

  • 데이터 파이프라인 설계
    기존의 Embodied Dataset에서 3D-Lanuage-Action 데이터를 추출하여 3D 정보와 텍스트 명령을 결합.

(1) Dataset Collection

D-VLA 모델을 위한 데이터셋은 다양한 소스에서 수집되었으며, 주요 데이터셋은 다음과 같다.

Open-X Embodiment Dataset에서 12개 데이터셋, Dobb-E, RH20T, RLBench, CALVIN 시뮬레이터 기반 데이터셋, 인간/손과 객체 간 상호작용 데이터, Epic-Kitchens, HOI4D 등의 데이터셋이 사용되었다.

(2) Visual Annotations

  • Estimating depths and optical flows ZoeDepth을 활용하여 각 비디오 프레임의 깊이 정보를 추정한다.
profile
AI 학부생이고, 임베디드와 AI에 관심 많습니다. 그중에서도 NLP와 로봇, VLM 좋아합니다!

0개의 댓글