https://arxiv.org/pdf/2307.15818
본 연구는 하나의 모델이 로봇의 관찰 데이터를 Action으로 변환하는 학습을 할 수 있을 뿐만 아니라, 인터넷 규모의 Language와 Vision-Language 데이터를 통한 사전 학습의 이점을 누리도록 하는 것이다. 대략적인 방법은 Action을 텍스트 토큰으로 표현하는 것이다. 기존 Language와 로봇 행동을 같은 형식(텍스트 토큰)으로 표현하여, 모델의 학습 데이터셋에 NLP 토큰처럼 통합한다. 이를 통해 로봇의 Action 데이터와 인터넷 Language 데이터를 함께 학습한다.
본 연구의 RT-2 모델은 이 접근 방식을 구현한 예로, 로봇 경로 데이터와 인터넷 기반 Vision-Language Task(예: 시각적 질문 응답)를 함께 학습한다.
이로 인해, RT-2는 새로운 객체에 대한 일반화가 크게 향상되었고, 로봇의 학습 데이터에 없던 명령어도 해석할 수 있게 되었다. 예를 들어, 특정 번호나 아이콘 위에 물체를 놓는 등의 명령도 수행할 수 있다. 또한, 단계별 추론이 가능해져, 예를 들어 피곤한 사람에게 적합한 음료(에너지 드링크)를 선택하는 등의 다단계 의미적 추론도 수행할 수 있다.
이 접근 방식은 인터넷에서 학습한 VLM의 일반화된 지식과 추론 능력을 로봇 제어에 직접 활용할 수 있게 하며, RT-2 모델이 다양한 새로운 작업과 상황에서도 유연하게 대응할 수 있도록 한다.
RT-2는 웹에서 학습된 대규모 VLM을 로봇에 통합하여, 실제 Task에서 일반화 능력을 극대화하고, 의미적으로 다양한 지시를 이해할 수 있도록 설계되었다.
일반적으로 로봇 데이터는 웹 데이터에 비해 매우 제한적이기 때문에, 기존 로봇 학습 방식으로는 웹 데이터 수준의 다양성을 확보하기 어렵다. 그래서 웹에서 대규모 데이터로 학습된 고성능 모델로 로봇 Task에 맞게 Fine Tuning하여, Language에 따라 로봇이 Low의 행동(예: 집기, 놓기 등)을 수행하도록 학습한다. 학습을 위해 로봇의 Action을 텍스트 토큰으로 변환하고, 이를 통해 모델이 Language와 이미지를 해석하여 적절한 Action을 출력할 수 있도록 한다.
- VQA 데이터와 로봇 동작 데이터를 결합하여 로봇 제어를 수행하는 전체적인 개요도
위 그림은 RT-2의 전체적인 개요도이다. 왼쪽 섹션에서는 Internet-Scale VQA와 Robot Action Data에 대한 샘플이 제시된다. 이 데이터들로 Co-Fine-Tune을 하여 RT-2를 학습시키고 Deploy하여 Action을 출력하게끔 한다.
기존 Vision-Language 모델은 웹 데이터로 학습된 VLM이다. 이는 이미지를 입력으로 받아 텍스트 형태의 응답을 생성할 수 있다. 본 연구에서는 PaLI-X와 PaLM-E라는 두 가지 VLM을 사용하여 RT-2-PaLI-X와 RT-2-PaLM-E라는 VLA 모델을 생성하였다. 이 모델들은 웹 데이터로 사전 학습되었다.
로봇을 동작하게 하기 위해 VLM을 사용하려면, 이 모델이 로봇 Action을 출력할 수 있도록 훈련하여야 한다. 그래서 Action을 모델 출력의 토큰으로 표현하며, 이 토큰들을 Language 토큰과 동일하게 취급한다.
Action space는 6-DoF positional, rotational displacement of the robot end-effector, level of extension of the robot gripper, a special discrete command for terminating the episode(에피소드가 성공적으로 완료되었음을 알리기 위한 종료 명령)로 구성된다.
Continuous Dimensions(종료 명령을 제외한 모든 차원)은 256개의 범위로 균등하게 이산화된다. 따라서 로봇 동작은 이산화된 범위의 번호를 사용하여 8개의 정수(terminate Δpos𝑥 Δpos𝑦 Δpos𝑧 Δrot𝑥 Δrot𝑦 Δrot𝑧 gripper_extension)로 표현될 수 있다.
이러한 이산화된 동작을 사용하여 VLM을 Vision-Language-Action(VLA) 모델로 Finetuning 하려면, 모델의 기존 토큰화에서 특정 토큰을 Action 범위와 연결해야 합니다. 이를 위해 동작 토큰으로 사용될 256개의 토큰을 설정해야 한다.
terminate Δpos𝑥 Δpos𝑦 Δpos𝑧 Δrot𝑥 Δrot𝑦 Δrot𝑧 gripper_extension
ex) 1 128 91 241 5 101 127
VLM Finetuning을 위해, Action 벡터를 각 차원의 Action 토큰을 공백 문자로 구분하여 하나의 문자열로 변환한다. 본 연구에서 사용된 VLM 모델은 2가지로 PaLI-X(로봇의 Action 범위를 1부터 256 사이의 숫자 토큰에 그대로 매칭)와 PaLM-E(잘 사용되지 않는 토큰 중 256개를 Action 표현용 토큰으로 덮어써서 사용)가 있다.
VLM Finetuning은 입력에는 로봇이 보고 있는 이미지(상황)와 텍스트 형태의 Task 설명(표준 VQA 형식인 “Q: 로봇이 '작업 설명'을 위해 어떤 동작을 해야 합니까? A:”)이 포함되며, 출력은 로봇 Action을 나타내는 토큰으로 형식화될 수 있다.
즉, RT-2와 VLM의 차이점 중 하나는 RT-2가 실제 로봇에서 실행할 유효한 Action 토큰을 출력해야 한다는 것이다. 따라서 RT-2가 로봇-Action Task가 주어졌을 때 유효한 Action 토큰만을 샘플링하여 출력할 수 있도록 어휘를 제한하여, 로봇 동작 작업 시 유효한 동작 토큰만을 샘플링하도록 한다. 단, 표준 Vision-Language Task에서는 자연어 토큰을 제한 없이 출력할 수 있다.
RT-2 모델은 매우 큰 모델이므로, 로봇에 장착된 GPU로는 실시간 로봇 제어에 사용하기 어렵다. 이를 해결하기 위해, 클라우드 기반의 다중 TPU 서비스를 사용하여 모델을 배포하고, 로봇이 네트워크를 통해 실시간으로 명령을 요청하여 실행하는 방식으로 구현되었다. 이때 여러 대의 로봇이 동일한 클라우드 서비스를 사용할 수 있다.
- Train 중 없던 객체, 배경, 환경에 관한 예시
- RT-2의 일반화 성능
RT-2 모델은 Train 데이터에 없던 새로운 객체, 배경, 환경에서도 높은 일반화 성능을 보여주며, 특히 RT-2 with PaLM-E-12B와 RT-2 with PaLI-X-55B가 가장 우수한 성능을 보였다. 베이스라인 모델들은 일반적으로 Train된 Task에서만 높은 성능을 보이며, 새로운 조건에서는 성능이 크게 떨어지는 것을 알 수 있다.
- Emergent Capabilities 예시
Language-Table 환경은 로봇이 주어진 텍스트 지시를 이해하고 해당 물체를 특정 위치로 이동하는 Task를 말한다. 위 그림의 왼쪽은 RT-2 모델이 케첩을 파란색 큐브로 밀거나, 파란색 큐브를 타바스코 쪽으로 이동하는 방식으로 지시를 수행하는 과정이다. 오른쪽은 Language-Table 환경에서 RT-2-PaLI-3B 모델이 가장 높은 성능이라는 것을 알 수 있다. 이는 RT-2 모델이 VLM에서 학습된 관계 이해 능력을 Transfer하여, 더 복잡한 지시를 정확히 수행할 수 있음을 시사한다.
- 파라미터 수 및 학습 전략이 일반화에 미치는 영향
Scratch 학습에서는 5B 모델에서부터 성능이 매우 낮았으며, 이에 따라 55B 모델은 Scratch 학습을 생략하였다. 이는 사전 학습 없이 로봇 데이터를 처음부터 학습하는 것이 일반화 성능에 크게 불리하다는 것을 보여준다. 반면, Co-Fine-Tuning은 모든 모델 크기에서 단순히 로봇 데이터로만 Fine-Tuning 하는 것보다 더 나은 일반화 성능을 보다. 이는 VLM 사전 학습 데이터를 계속 유지하면서 로봇 데이터를 추가 학습하는 것이 모델이 이전에 학습한 개념을 잊지 않도록 돕기 때문으로 해석된다. 모델 크기는 모델 크기가 커질수록 일반화 성능이 향상되었다.
- RT-2의 Chain-of-Thought 예시
위 그림의 첫 번째 예시에서는 "Bring me a drink"라는 지시를 받고, 모델은 먼저 계획으로 " pick 7up can"를 세운 후, 로봇이 지정된 좌표로 이동하여 7up 캔을 선택하는 동작을 수행한다.
두 번째 예시에서는 "Move all the objects together."라는 명령어에 대해, RT-2 모델은 "move green can near green rice chip bag"이라는 계획을 세우고 이를 실행하여 물체들을 가까이 모은다.
세 번째 예시에서는 "Pick the object that is different from all other objects"하라는 명령어에 대해, RT-2는 RXBAR 초콜릿이 다른 물체들과 다르다는 것을 인식하고 이를 선택하는 계획과 동작을 수행한다. 네 번째 예시에서는 "Move the green objects together"는 명령을 받고, "move green can near green rice chip bag"하라는 계획을 세운 후 물체들을 모은다.
마지막 예시에서는 "못을 박기 위해 사용할 수 있는 물체"를 찾는 지시에 대해, RT-2는 Rocks이 유용하다고 판단하고, 이를 선택하는 행동을 수행한다.
RT-2 모델은 좋은 일반화 성능을 보이지만, 여러 가지 한계가 존재한다.
첫째, 웹 스케일 사전 학습을 포함한 VLM으로 일반화가 향상되었으나, 새로운 동작을 수행하는 능력은 습득하지 못했다. 모델의 물리적 기술은 로봇 데이터에서 학습된 기술에 제한되며, 이는 데이터셋이 다양한 기술을 충분히 포함하지 않기 때문으로 보인다.
둘째, 대규모 VLA 모델을 실시간으로 실행할 수는 있지만, 높은 Computing Cost가 요구되며, 고빈도 제어가 필요한 환경에서는 실시간 추론이 주요 병목이 될 수 있다.
본 논문에서는 VLM의 사전 학습과 로봇 데이터를 결합하여 VLA 모델을 훈련하는 방법을 설명했다. PaLM-E와 PaLI-X를 기반으로 한 두 가지 VLA 모델, RT-2-PaLM-E와 RT-2-PaLI-X를 제시하였으며, 로봇의 행동을 텍스트 토큰으로 출력하도록 로봇의 경로 데이터를 함께 Co-fine-tuning 하였다. 이를 통해 높은 성능의 로봇 정책을 구현했으며, 웹 스케일 Vision-Language 사전 학습을 통해 뛰어난 일반화 성능과 발현적 능력을 확인할 수 있었다.