컴퓨터 비전(CV)과 자연어 처리(NLP) 분야는 소규모의 특정 작업 맞춤형 데이터셋에서 벗어나, 방대한 범용 데이터셋으로 사전 학습된 대규모 모델(Large General Models) 패러다임으로 전환하며 눈부신 발전을 이루었습니다. 이러한 모델들은 풍부한 데이터를 흡수하여 새로운 작업 환경에서도 제로샷(Zero-shot) 일반화 성능을 보여줍니다.
로보틱스 분야 역시 이러한 범용 모델의 도입이 절실하지만, 실제 환경의 로봇 데이터를 수집하는 것은 막대한 엔지니어링 비용과 인간의 시연이 요구되는 병목 현상을 겪고 있습니다.
기존의 로봇 제어 방법론은 주로 두 가지 한계를 지니고 있었습니다.
첫째, BC-Z와 같은 모델은 다중 작업(Multi-task)을 수행할 수 있으나, 연속적인 동작 공간(Continuous action space)을 사용하여 복잡하고 다중 모달(Multi-modal)적인 동작 분포를 포착하는 데 한계가 있으며, 새로운 환경에 대한 일반화 성능이 상대적으로 낮습니다.
둘째, Gato와 같은 트랜스포머 기반의 범용 에이전트가 존재하나, 실제 물리적 로봇 환경에서의 다중 작업보다는 시뮬레이션이나 특정 작업(예: 블록 쌓기)에 편중되어 있어 미지의 실제 환경에 대한 범용성이 입증되지 않았습니다. 또한, 모델의 크기로 인해 폐루프 제어(Closed-loop control)에 필수적인 실시간 추론 속도를 달성하기 어렵다는 치명적인 문제가 있습니다.
이 논문은 "다양한 로봇 작업 데이터를 흡수할 수 있는 고용량 아키텍처를 설계하면서도, 실제 로봇 제어에 필수적인 실시간 추론(Real-time inference)이 가능한 단일 범용 트랜스포머 모델을 구축할 수 있는가?"라는 핵심 문제를 정의하고, 이를 해결하기 위한 Robotics Transformer 1 (RT-1)을 제안합니다.


RT-1의 핵심 아이디어는 로봇 제어를 일련의 시퀀스 모델링(Sequence modeling) 문제로 취급하는 것입니다. 시각적 관측과 자연어 지시를 입력받아, 로봇의 행동을 이산화된 토큰(Discretized action tokens)으로 변환하여 트랜스포머가 다음 행동을 예측하도록 합니다. 특히 연산량을 극도로 압축하여 고성능을 유지하면서도 제어 주파수를 맞추는 파이프라인 설계가 돋보입니다.
데이터 표현 및 전처리 방식
모델은 특정 시점 에서 자연어 명령어 와 최근 6프레임의 이미지 시퀀스 를 입력으로 받습니다.
1. 자연어 임베딩: 명령어 는 Universal Sentence Encoder (USE)를 통해 텍스트 임베딩으로 변환됩니다.
2. 시각 및 언어의 초기 결합 (Early Fusion): 각 해상도의 이미지는 ImageNet으로 사전 학습된 EfficientNet-B3를 통과합니다. 이때, USE 임베딩을 FiLM (Feature-wise Linear Modulation) 레이어에 주입하여 EfficientNet의 중간 특징 맵(Feature map)을 조정합니다. 즉, 이미지에서 명령어와 관련된 특징만을 초기 단계에서부터 선택적으로 추출합니다. 사전 학습 가중치 훼손을 막기 위해 FiLM 레이어는 항등 함수(Identity)로 초기화됩니다.
3. 토큰 압축 (TokenLearner): EfficientNet의 출력인 특징 맵은 81개의 시각-언어 토큰으로 평탄화(Flatten)됩니다. 이후 TokenLearner 모듈을 통해 정보량이 높은 요소만 소프트 선택(Soft-select)되어 프레임당 단 8개의 토큰으로 압축됩니다. 최종적으로 6프레임에 대한 총 48개의 토큰 시퀀스가 생성됩니다.
모델 세부 구조 및 행동 공간의 이산화
압축된 48개의 토큰은 19M 파라미터 크기의 디코더 전용 트랜스포머(Decoder-only Transformer)에 입력됩니다.
로봇의 행동 는 팔 제어 7차원(x, y, z, roll, pitch, yaw, 그리퍼 개폐), 베이스 이동 3차원(x, y, yaw), 모드 전환 1차원(팔, 베이스, 종료) 등 총 11차원으로 구성됩니다. RT-1은 연속적인 제어 값을 사용하는 대신, 각 차원의 목표값을 256개의 균등한 구간(Bins)으로 이산화(Discretization)합니다. 트랜스포머는 각 차원마다 256개의 클래스에 대한 범주형 분포(Categorical distribution)를 출력합니다.
학습(Training) 및 추론(Inference) 알고리즘 흐름
이러한 접근은 Gato의 패치 기반 토큰화 및 후기 결합(Late fusion) 방식 대비 연산 효율성과 작업 집중도를 극대화하며, 기존 BC-Z의 연속형 행동 회귀 대비 이산화된 행동 분포를 통해 불확실성이 높은 실제 환경에서 복잡한 다중 모달성을 안정적으로 학습할 수 있는 기술적 차별성을 갖습니다.
실험 환경 및 비교 대상
실험은 13대의 실제 모바일 매니퓰레이터를 활용해 17개월간 수집된 13만 개의 에피소드(700개 이상의 작업 명령어 포함) 데이터셋을 바탕으로 진행되었습니다. 학습 환경을 모사한 사무실 주방과, 시각적 요소 및 구조가 완전히 새로운 2개의 실제 주방 환경에서 약 3,000회의 평가가 이루어졌습니다. 비교 대상(Baseline)으로는 로봇 제어 속도에 맞춰 파라미터 크기를 조정한 Gato(37M)와 BC-Z, 그리고 파라미터를 늘린 BC-Z XL 모델이 사용되었습니다.
핵심 성능 및 정량/정성 평가
RT-1은 모든 평가 지표에서 기존 방법론을 압도했습니다.
해석 중심의 어블레이션 및 심층 실험 결과
방법의 한계
엔지니어링 및 이론적 과제
실제 환경에 배치하기 위해서는 트랜스포머의 문맥 길이(Context length) 한계를 극복해야 합니다. 짧은 관측 기록(6 프레임)만을 사용하므로 일시적 가려짐 현상이나 장기적인 상태 추적에 취약할 수 있으며, 어텐션의 연산 병목을 해결하기 위한 효율적인 메모리 아키텍처 연구가 추가로 필요합니다. 또한 양질의 다양한 로봇 데이터를 확장 가능한 방식(Scalable way)으로 수집하는 파이프라인의 구축이 필수적입니다.
이 연구가 가지는 의미
RT-1은 컴퓨터 비전이나 자연어 처리에서 입증된 '대규모 범용 모델'의 이점이 로보틱스 도메인에서도 동일하게 성립함을 실제 로봇 스케일에서 입증한 기념비적인 연구입니다. 특히, 연산량의 한계로 트랜스포머를 기피하던 실시간 로봇 제어 환경에서, TokenLearner와 이산화된 행동 분포라는 엔지니어링 설계를 통해 '높은 표현력을 지닌 흡수력 있는 모델(Absorbent model)'이 로보틱스에서도 실용화될 수 있음을 보여주었으며, 향후 다양한 기종과 환경의 데이터를 통합 학습하는 파운데이션 로봇 모델로 나아가는 명확한 방향성을 제시합니다.