π0: A Vision-Language-Action Flow Model for General Robot Control

정진우·2025년 2월 15일

1. abstract

먼저 이 논문에서는 아래 주장으로 시작한다.

로봇 학습은 유연성,범용성,민첩성과 관련된 로봇 시스템을 잠재력을 발휘할 수 있는 가능성을 가진다. 또한 인공지능은 로봇이 가진 문제를 해결하는데 기여할 수 있다.

또한 실세계에서 문제를 겪는 부분을 말한다.

그러나 효과적인 실세계 시스템을 위해 필요한 일반성에 도달하는 것은 데이터, 일반화, 그리고 강인성 측면에서 힘들다.

다음으로 방법론적으로 접근한다.

  • 우리는 인터넷 규모의 의미론적 지식을 계승하기 위해 사전 학습된 비전-언어 모델(VLM) 을 기반으로 하는 새로운 플로우 매칭 아키텍처를 제안한다.
  • 또한, 이 모델을 단일 팔 로봇, 이중 팔 로봇, 이동형 조작기를 포함한 다양한 능숙한 로봇 플랫폼으로부터 수집된 크고 다양한 데이터셋으로 학습시키는 방법에 대해 논의

그 다음 해당 방법의 결과로 abstract를 마무리한다.

  • 우리의 평가에서는 사전 학습 후 제로샷(Zero-Shot)으로 작업을 수행하는 능력, 사람이나 고수준 VLM 정책의 언어 명령을 따르는 능력, 그리고 미세 조정을 통해 새로운 기술을 습득하는 능력을 검증하였습니다.
  • 그 결과, 우리의 모델은 세탁물 접기, 테이블 청소, 박스 조립 등 다양한 작업에서 우수한 성능을 보였습니다.

2. 모델 구조 및 학습 방법

2.1 비전-언어 모델(VLM) 백본

π₀는 PaliGemma와 같은 사전 학습된 VLM을 활용하여, 이미지와 텍스트(자연어 명령)를 동일 임베딩 공간으로 매핑합니다.

장점:
인터넷 규모의 데이터에서 학습된 풍부한 의미 정보를 로봇 제어 문제에 전이시켜, 언어 명령이나 복잡한 시각 정보를 효과적으로 처리할 수 있음.

2.2 액션 Expert와 연속 동작 생성

로봇의 동작은 연속적인 값을 가지므로, π₀는 이산적인 토큰 대신 연속 동작 분포를 직접 모델링합니다. 이를 위해 flow matching 기법을 사용합니다.

Conditional Flow Matching 손실

모델은 주어진 관측 oto_t (이미지, 언어 명령, 로봇의 관절 각도 등)로부터, 미래 동작 청크

At=[at,  at+1,  ,  at+H1]A_t = [a_t, \; a_{t+1}, \; \dots, \; a_{t+H-1}]

를 예측합니다.
각 동작 ata_t' 에 대해, 모델은 다음과 같은 조건부 손실을 최소화합니다.

Lτ(θ)=Ep(Atot),  q(AtτAt)[vθ(Atτ,ot)u(AtτAt)2]L_\tau(\theta) = \mathbb{E}_{p(A_t \mid o_t), \; q(A^\tau_t \mid A_t)} \Bigl[ \Bigl\| v_\theta(A^\tau_t, o_t) - u(A^\tau_t \mid A_t) \Bigr\|_2 \Bigr]
  • vθ(Atτ,ot)v_\theta(A^\tau_t, o_t): 모델이 예측한 벡터 필드 (즉, 노이즈를 제거하기 위한 “denoising” 벡터).
  • u(AtτAt)u(A^\tau_t \mid A_t): 실제 노이즈 벡터로,
    u(AtτAt)=ϵAtu(A^\tau_t \mid A_t) = \epsilon - A_t
    로 정의됩니다.
  • q(AtτAt)q(A^\tau_t \mid A_t): 노이즈 주입 분포로, 아래와 같이 정의됩니다.

노이즈 주입 분포

모델은 선형-가우시안 경로를 사용하여 노이즈를 주입합니다:

q(AtτAt)=N(τAt,  (1τ)I),q(A^\tau_t \mid A_t) = \mathcal{N}(\tau A_t, \; (1-\tau) I),

여기서 τ[0,1]\tau \in [0, 1]는 노이즈 주입 정도를 나타내며, II는 단위 행렬입니다.

해석:
τ\tau가 0에 가까우면 더 많은 노이즈가 주입되고, 1에 가까우면 원래 동작에 가까운 값을 갖게 되어, 모델이 다양한 노이즈 조건 하에서도 동작을 예측할 수 있도록 훈련합니다.

동작 생성(추론)

추론 시에는, 학습된 벡터 필드를 이용해 노이즈에서 시작하여 실제 동작을 생성합니다.
초기 동작은

At0N(0,I)A_t^0 \sim \mathcal{N}(0, I)

에서 시작하며, 아래의 오일러 통합법을 사용합니다:

Atτ+δ=Atτ+δvθ(Atτ,ot),A_t^{\tau+\delta} = A_t^\tau + \delta \, v_\theta(A_t^\tau, o_t),

여기서 δ\delta는 통합 스텝 크기이며, 일반적으로 10단계로 δ=0.1\delta = 0.1을 사용합니다.

해석:
이 과정을 통해 점진적으로 노이즈가 제거되고, 최종적으로 높은 정밀도의 연속 동작 청크 AtA_t가 생성됩니다.


3. 데이터 및 학습 전략

3.1 크로스-엠보디먼트 데이터

  • 데이터 구성:
    7가지 로봇 구성 및 68개 작업에 대한 10,000시간 이상의 로봇 데이터와 OXE 등의 오픈소스 데이터셋을 결합.
  • 목적:
    다양한 작업과 로봇 환경에 대해 일반화된 동작 정책을 학습하기 위함.

3.2 사전학습(Pre-training)과 후학습(Post-training)

  • 사전학습:
    광범위한 데이터에 대해 모델의 기초 능력(제로샷 제어 및 언어 이해)을 학습.
  • 후학습:
    특정 다운스트림 작업(예: 세탁물 접기, 테이블 버싱 등)에 대해 미세 조정하여, 보다 정교하고 안정적인 동작을 유도.

4. 실험 결과 및 평가

4.1 제로샷 및 언어 명령 수행

π₀는 사전학습만으로도 셔츠 접기, 테이블 청소 등 여러 작업을 제로샷으로 수행하며, 언어 명령에 따른 동작 수행에서도 우수한 성능을 보입니다.

4.2 미세 조정(Fine-tuning)

후학습을 통해, 물건 쌓기, 타월 접기, 전자레인지 조작 등 새로운 작업에서도 빠르고 안정적으로 학습하며 기존 모델 대비 큰 성능 향상을 달성했습니다.


5. 강점, 한계 및 향후 연구 방향

강점

  • 대규모 데이터와 범용성:
    10,000시간 이상의 다양한 작업 데이터를 활용하여, 다양한 로봇 및 상황에 대해 높은 일반화 성능을 보임.
  • 연속 동작 생성:
    flow matching 기법을 통한 고주파 제어 (예: 50Hz)로, 정밀하고 복잡한 작업 수행이 가능함.
  • 멀티모달 융합:
    비전, 언어, 동작 정보를 동시에 처리하는 통합 모델로, 향후 다양한 응용 분야로의 확장이 기대됨.

한계 및 개선 방향

  • 데이터 구성 최적화:
    어떤 종류의 데이터가 모델 성능에 더 큰 영향을 미치는지, 그리고 각 데이터의 가중치를 어떻게 조정할지에 대한 추가 연구 필요.
  • 범용성 확장:
    현재는 주로 로봇 조작 작업에 집중되어 있으나, 자율주행이나 보행 로봇 등 다른 도메인으로의 확장 가능성에 대한 검증이 요구됨.
  • 연산 효율성 및 임베디드 적용:
    고주파 제어를 위한 모델 구조를 경량화하거나 최적화하여, 임베디드 시스템에도 적용할 수 있도록 하는 연구가 필요.

6. 결론

π₀는 사전 학습된 VLM과 flow matching 기반의 연속 동작 생성 기법을 결합하여, 범용 로봇 제어 분야에 혁신적인 접근법을 제시합니다.

핵심 기여:

  • 다양한 로봇 및 작업 데이터를 효과적으로 활용하는 크로스-엠보디먼트 학습 전략
  • 연속 동작 분포를 정확하게 모델링하는 conditional flow matching 손실과 통합법

향후 전망:
데이터 구성, 모델 경량화, 그리고 다양한 도메인으로의 확장을 통해 더욱 범용적인 로봇 제어 시스템으로 발전할 수 있을 것으로 기대됩니다.

profile
로봇지능,컴퓨터 비전,AI 공부 중

0개의 댓글