https://arxiv.org/pdf/2310.08864
다양한 데이터셋으로 학습된 Large, high-capacity 모델들은 세분화된 다양한 분야의 Task를 해결하는 데 있어서 높은 성과를 보여주고 있다. 본 논문에서는 로봇 Manipulation의 맥락에서 이러한 가능성을 볼 수 있도록 표준화된 데이터 형식의 데이터셋과 모델을 제공한다. 또한, X-로봇 policy의 예를 보여주는 실험 결과를 제공한다. 22개의 서로 다른 로봇으로부터 527개의 기술을 수집하여 데이터셋을 구성했다. 이 데이터를 기반으로 학습된 High-capacity 모델인 RT-X는 좋은 Transfer 성능을 보여주며, 여러 로봇의 성능을 향상시키는 것을 확인하였다.
다양한 데이터셋으로부터 대규모 학습을 통해 General-Purpose Pretrained 모델을 구축함으로써 높은 성능의 모델을 구현할 수 있다는 것이다. 즉, 대규모의 General 모델은 보통 대규모이자 다양한 데이터셋으로 학습되며, 더 적은 양의 특정 작업에 특화된 데이터로 학습된 모델보다 뛰어난 성능을 발휘하는 경우가 많다. 그러나 이러한 방법은 로보틱스 분야에 적용하기는 어렵다. 로봇의 개별적인 도메인은 지나치게 제한적일 수 있으며, 컴퓨터 비전과 NLP는 웹에서 수집된 대규모 데이터셋을 활용할 수 있는 반면, 로봇에 대한 적당한 크기의 데이터셋을 확보하기가 어렵다.
다양한 데이터로 Pretrained 된 대규모 Vision 또는 NLP 모델의 일반화를 참고하여, 본 논문은 일반화 가능한 로봇 Policy를 학습하려면 다중 로봇 플랫폼의 데이터를 활용하는 X-플랫폼 학습이 필요하다고 주장한다. 개별 로봇 학습 데이터셋은 지나치게 제한적일 수 있지만, 이러한 데이터셋들을 결합하면 환경 및 로봇의 변화를 더 잘 포괄할 수 있다. 일반화 가능한 로봇 정책을 학습하려면 다중 플랫폼 데이터(X-플랫폼 데이터)를 활용할 수 있는 방법을 개발해야 하며, 이를 위해 여러 연구소, 로봇 및 설정에서 얻은 데이터셋을 활용해야 한다. 그래서 본 논문에서는 이러한 논리에 따라 두 가지 목표를 설정한다.
즉, 목표는 특정 아키텍처나 알고리즘 개발이 아니라, 학습된 모델과 데이터를 함께 제공하여 X-플랫폼 로봇 학습에 관한 연구를 활성화하는 데 있다.
X-플랫폼 로봇 학습 연구를 위한 대규모 데이터와 사전 학습된 모델 체크포인트를 포함한 오픈소스 리포지토리는 Open X-Embodiment Repository(https://robotics-transformer-x.github.io/)이다.
위 오픈소스 리포지토리는 총 2가지를 제공한다.
(1) Open X-Embodiment 데이터셋
Open X-Embodiment 데이터셋은 단일 로봇 팔부터 양팔 로봇 및 사족 로봇에 이르기까지 22개의 로봇 플랫폼에서 수집된 100만 개 이상의 실제 로봇 경로를 포함한다. 이 데이터셋은 전 세계 34개 로봇 연구소에서 제공된 60개의 기존 로봇 데이터셋을 모아, 일관된 데이터 형식으로 변환하여 다운로드 및 사용이 용이하도록 설계되었다.
(2) 데이터셋 분석
- The Open X-Embodiment Dataset
위 그림은 Open X-Embodiment 데이터셋을 분석한 내용을 보여준다.
대부분의 기술은 "집고 옮기기(pick-place)"에 속하지만, "닦기(wiping)" 또는 "조립(assembling)"과 같은 기술도 포함된다. 또한, 데이터는 가전제품, 음식, 식기류 등 다양한 가정용 물체를 포함한다.
X-플랫폼 학습(X-embodiment training)이 개별 로봇에서 학습된 Policies의 성능을 얼마나 향상시킬 수 있는지 평가하려면, 대규모인 데이터셋을 활용할 수 있는 충분한 Capacity를 가진 모델이 필요하다. 이를 위해, 최근 제안된 로봇 Policy인 RT-1, RT-2를 기반으로 실험을 수행한다.
X-플랫폼 모델 구축에서의 중점은 로봇 간 관찰(observation) 및 Action 공간이 크게 다르다는 점이다. 이를 해결하기 위해, 우리는 데이터셋 전반에 걸쳐 관찰 및 Action 공간을 대략적으로 Align 하였다. 모델은 최근의 이미지와 NLP instruction을 관찰 데이터(Input)로 받아들여, 7차원 행동 벡터(x, y, z, roll, pitch, yaw, 그리퍼 개폐 상태 또는 이 값들의 변화율)를 예측한다.
- RT-1-X와 RT-2-X의 전반적인 개요도
그러나 이러한 대략적인 Align에도 불구하고, 카메라 관찰은 데이터셋마다 카메라 위치와 속성 차이로 인해 여전히 상당히 다르다(위 그림). 또한, Action 공간도 데이터셋마다 좌표계가 Align되지 않아, 동일한 Action 벡터가 서로 다른 로봇에서 매우 다른 움직임을 유발할 수 있다.
위 그림으로 예를 들자면, 같은 유형의 Task("Route cable", "Pick up the orange fruit")를 수행하지만, 사용된 로봇과 카메라의 관찰 데이터가 각기 다르다. 첫 번째 Task("Route cable")은 카메라가 로봇 팔 위쪽에서 내려다보는 시점이고, 두 번째 Task("Pick apple")은 테이블의 측면에서 로봇 작업을 관찰하는 시점이다. 세 번째 Task("Pick orange")은 로봇 팔에 더 가까운 뷰를 제공한다.
한마디로, 같은 Task 유형이라도 로봇마다 관찰 데이터(카메라의 위치, 속성에 따라)가 다르다.
본 연구에서는 두 가지 모델 아키텍처(RT-1, RT-2)를 사용하였다.
Train 목표는 두 모델 모두 Output에 대해 categorical cross-entropy loss를 사용한다. 실험에서 사용된 로봇 데이터는 9개의 로봇 플랫폼에서 수집된 데이터로 구성되며, RT-1, QT-Opt, Bridge 등에서 수집된 데이터를 포함한다.
이때, RT-1-X는 로봇 데이터만으로 학습하고, RT-2-X는 VLM 데이터와 로봇 데이터를 약 1:1 비율로 사용하여 동시 Finetuning한다.
본 연구는 X-플랫폼 학습(X-embodiment training)이 로봇 학습에 미치는 영향을 평가하며, 다음 세 가지 주요 질문에 답하려고 한다.
- RT-1-X mean success rate is 50% higher than that of either the Original Method or RT-1
RT-1-X는 5개 중 4개의 소규모 데이터셋에서 Original Method 모델보다 우수한 성능을 보였으며, 이는 X-플랫폼 데이터를 활용한 공동 학습(co-training)이 성능을 크게 향상시킴을 나타낸다.
RT-1-X는 RT-1 baseline과 유사하거나 약간 열등한 성능을 보였지만, RT-2-X는 Original Method와 RT-1을 능가하며, 충분히 큰 모델 용량이 있는 경우 X-플랫폼 학습이 데이터가 풍부한 도메인에서도 효과적임을 보여준다.
RT-2와 RT-2-X는 새로운 물체, 배경, 환경에서 유사한 성능을 보였다. 이는 RT-2가 이미 높은 성능의 일반화 능력을 갖춘 VLM 백본을 사용하기 때문이다.
Emergent Skills(새로운 기술) 평가에서는 RT-2-X가 RT-2보다 약 3배 높은 성능을 기록했다. 이는 다른 로봇(WidowX)의 데이터를 포함해 학습한 RT-2-X가 Google Robot에서도 해당 데이터를 활용해 새로운 기술을 수행할 수 있게 되었음을 보여준다.
- Ablations toshowthe impact of design decisions on generalization
Web-based pretraining은 모델의 성능에 결정적이며, 더 큰 모델 용량(55B)이 더 높은 Transfer 성능을 가능하게 한다. 로봇 데이터의 다양성 덕분에 RT-2-X는 Co-fine-tuning과 Fine-tuning에서 유사한 성능을 보였다.
위 결과들로 인해, X-플랫폼 데이터셋으로 학습된 RT-X는 다양한 로봇 간 Positice Transfer을 가능하게 하며, RT-1-X는 기존 방법보다 50% 높은 성공률을 기록했다. RT-2-X는 3배 향상된 일반화 성능을 보여주며, 데이터가 풍부한 로봇에서도 다른 플랫폼의 데이터를 활용해 새로운 기술을 학습할 수 있음을 입증했다.
본 연구는 기존 방식이 크게 다른 로봇이나 완전히 새로운 로봇에 대한 일반화를 다루지 않는다. 또한 Positive Transfer이 발생하는 조건에 대한 명확한 기준이 부족하다.