1. abstract
먼저 이 논문에서는 아래 주장으로 시작한다.
로봇 학습은 유연성,범용성,민첩성과 관련된 로봇 시스템을 잠재력을 발휘할 수 있는 가능성을 가진다. 또한 인공지능은 로봇이 가진 문제를 해결하는데 기여할 수 있다.
또한 실세계에서 문제를 겪는 부분을 말한다.
그러나 효과적인 실세계 시스템을 위해 필요한 일반성에 도달하는 것은 데이터, 일반화, 그리고 강인성 측면에서 힘들다.
다음으로 방법론적으로 접근한다.
- 우리는 인터넷 규모의 의미론적 지식을 계승하기 위해 사전 학습된 비전-언어 모델(VLM) 을 기반으로 하는 새로운 플로우 매칭 아키텍처를 제안한다.
- 또한, 이 모델을 단일 팔 로봇, 이중 팔 로봇, 이동형 조작기를 포함한 다양한 능숙한 로봇 플랫폼으로부터 수집된 크고 다양한 데이터셋으로 학습시키는 방법에 대해 논의
그 다음 해당 방법의 결과로 abstract를 마무리한다.
- 우리의 평가에서는 사전 학습 후 제로샷(Zero-Shot)으로 작업을 수행하는 능력, 사람이나 고수준 VLM 정책의 언어 명령을 따르는 능력, 그리고 미세 조정을 통해 새로운 기술을 습득하는 능력을 검증하였습니다.
- 그 결과, 우리의 모델은 세탁물 접기, 테이블 청소, 박스 조립 등 다양한 작업에서 우수한 성능을 보였습니다.
2. 모델 구조 및 학습 방법
2.1 비전-언어 모델(VLM) 백본
π₀는 PaliGemma와 같은 사전 학습된 VLM을 활용하여, 이미지와 텍스트(자연어 명령)를 동일 임베딩 공간으로 매핑합니다.
장점:
인터넷 규모의 데이터에서 학습된 풍부한 의미 정보를 로봇 제어 문제에 전이시켜, 언어 명령이나 복잡한 시각 정보를 효과적으로 처리할 수 있음.
2.2 액션 Expert와 연속 동작 생성
로봇의 동작은 연속적인 값을 가지므로, π₀는 이산적인 토큰 대신 연속 동작 분포를 직접 모델링합니다. 이를 위해 flow matching 기법을 사용합니다.
Conditional Flow Matching 손실
모델은 주어진 관측 ot (이미지, 언어 명령, 로봇의 관절 각도 등)로부터, 미래 동작 청크
At=[at,at+1,…,at+H−1]
를 예측합니다.
각 동작 at′ 에 대해, 모델은 다음과 같은 조건부 손실을 최소화합니다.
Lτ(θ)=Ep(At∣ot),q(Atτ∣At)[∥∥∥∥vθ(Atτ,ot)−u(Atτ∣At)∥∥∥∥2]
- vθ(Atτ,ot): 모델이 예측한 벡터 필드 (즉, 노이즈를 제거하기 위한 “denoising” 벡터).
- u(Atτ∣At): 실제 노이즈 벡터로,
u(Atτ∣At)=ϵ−At 로 정의됩니다.
- q(Atτ∣At): 노이즈 주입 분포로, 아래와 같이 정의됩니다.
노이즈 주입 분포
모델은 선형-가우시안 경로를 사용하여 노이즈를 주입합니다:
q(Atτ∣At)=N(τAt,(1−τ)I),
여기서 τ∈[0,1]는 노이즈 주입 정도를 나타내며, I는 단위 행렬입니다.
해석:
τ가 0에 가까우면 더 많은 노이즈가 주입되고, 1에 가까우면 원래 동작에 가까운 값을 갖게 되어, 모델이 다양한 노이즈 조건 하에서도 동작을 예측할 수 있도록 훈련합니다.
동작 생성(추론)
추론 시에는, 학습된 벡터 필드를 이용해 노이즈에서 시작하여 실제 동작을 생성합니다.
초기 동작은
At0∼N(0,I)
에서 시작하며, 아래의 오일러 통합법을 사용합니다:
Atτ+δ=Atτ+δvθ(Atτ,ot),
여기서 δ는 통합 스텝 크기이며, 일반적으로 10단계로 δ=0.1을 사용합니다.
해석:
이 과정을 통해 점진적으로 노이즈가 제거되고, 최종적으로 높은 정밀도의 연속 동작 청크 At가 생성됩니다.
3. 데이터 및 학습 전략
3.1 크로스-엠보디먼트 데이터
- 데이터 구성:
7가지 로봇 구성 및 68개 작업에 대한 10,000시간 이상의 로봇 데이터와 OXE 등의 오픈소스 데이터셋을 결합.
- 목적:
다양한 작업과 로봇 환경에 대해 일반화된 동작 정책을 학습하기 위함.
3.2 사전학습(Pre-training)과 후학습(Post-training)
- 사전학습:
광범위한 데이터에 대해 모델의 기초 능력(제로샷 제어 및 언어 이해)을 학습.
- 후학습:
특정 다운스트림 작업(예: 세탁물 접기, 테이블 버싱 등)에 대해 미세 조정하여, 보다 정교하고 안정적인 동작을 유도.
4. 실험 결과 및 평가
4.1 제로샷 및 언어 명령 수행
π₀는 사전학습만으로도 셔츠 접기, 테이블 청소 등 여러 작업을 제로샷으로 수행하며, 언어 명령에 따른 동작 수행에서도 우수한 성능을 보입니다.
4.2 미세 조정(Fine-tuning)
후학습을 통해, 물건 쌓기, 타월 접기, 전자레인지 조작 등 새로운 작업에서도 빠르고 안정적으로 학습하며 기존 모델 대비 큰 성능 향상을 달성했습니다.
5. 강점, 한계 및 향후 연구 방향
강점
- 대규모 데이터와 범용성:
10,000시간 이상의 다양한 작업 데이터를 활용하여, 다양한 로봇 및 상황에 대해 높은 일반화 성능을 보임.
- 연속 동작 생성:
flow matching 기법을 통한 고주파 제어 (예: 50Hz)로, 정밀하고 복잡한 작업 수행이 가능함.
- 멀티모달 융합:
비전, 언어, 동작 정보를 동시에 처리하는 통합 모델로, 향후 다양한 응용 분야로의 확장이 기대됨.
한계 및 개선 방향
- 데이터 구성 최적화:
어떤 종류의 데이터가 모델 성능에 더 큰 영향을 미치는지, 그리고 각 데이터의 가중치를 어떻게 조정할지에 대한 추가 연구 필요.
- 범용성 확장:
현재는 주로 로봇 조작 작업에 집중되어 있으나, 자율주행이나 보행 로봇 등 다른 도메인으로의 확장 가능성에 대한 검증이 요구됨.
- 연산 효율성 및 임베디드 적용:
고주파 제어를 위한 모델 구조를 경량화하거나 최적화하여, 임베디드 시스템에도 적용할 수 있도록 하는 연구가 필요.
6. 결론
π₀는 사전 학습된 VLM과 flow matching 기반의 연속 동작 생성 기법을 결합하여, 범용 로봇 제어 분야에 혁신적인 접근법을 제시합니다.
핵심 기여:
- 다양한 로봇 및 작업 데이터를 효과적으로 활용하는 크로스-엠보디먼트 학습 전략
- 연속 동작 분포를 정확하게 모델링하는 conditional flow matching 손실과 통합법
향후 전망:
데이터 구성, 모델 경량화, 그리고 다양한 도메인으로의 확장을 통해 더욱 범용적인 로봇 제어 시스템으로 발전할 수 있을 것으로 기대됩니다.