Title : π0.5: a Vision-Language-Action Model with Open-World Generalization (CoRL 2025)
논문 링크 : https://arxiv.org/pdf/2504.16054
blog: https://www.pi.website/blog/pi05

Open-world Generalization 필요성
현실 세계 가옥 청소 작업의 복잡성과 한계
인간의 인지 방식에서 착안한 해결채(이종 데이터 전이)
VLA(Vision-Language-Action) 모델의 기회
모델의 데이터 구성 및 성과
Simple Hierarchical Architecture 설계
Contribution

Imitation Learning 기반의 VLA 모델 학습
Log-likelihood : Likelihood는 모델이 예측한 확률 분포가 실제 정답 데이터와 얼마나 잘 부합하는지 나타내는 가능성. 여기에 Log를 씌우는 이유는 복잡한 확률들의 곱셈 연산을 덧셈으로 바꾸어 컴퓨터가 더 쉽고 안정적으로 계산(최적화)할 수 있도록 만들기 위함.
로봇의 Observation 의 정의
Proprioceptive State: 로봇 관절 모터의 각도, 로봇 팔 end-effector의 위치, 그리퍼의 개폐 상태 등을 의미, 시각 정보와 결합하여 정밀한 제어를 가능하게 함.
Transformer 백본과 토큰화(Tokenization)
Tokenization: 글자, 이미지, 로봇 관절값 등 서로 다른 형태의 원본 데이터를 AI 모델(Transformer)이 이해하고 연산할 수 있도록 일정한 단위의 토큰(숫자 혹은 벡터)으로 쪼개고 변환하는 과정
Autoregressive: 이전에 자신이 출력한 토큰(단어나 액션)을 다시 다음 step의 입력으로 사용해 가면서 순차적으로 시퀀스를 생성해 나가는 모델 작동 방시그 ChatGPT가 답변을 한 글자씩 생성해 내는 것과 같은 원리
Continuous Action 표현을 위해 발전된 Decoding
Diffusion 및 Flow Mathcing:
이미지를 생성하는 AI처럼, 무작위 노이즈(오염 상태)에서 출발해 단계적으로 노이즈를 걷어내며(Denoising) 고품질의 정답을 생성해 내는 생성형 AI기법, 로봇 공학에 이를 적용하면, 투박하고 딱딱한 고정값이 아니라 매우 정밀하고 유연하며 자연스러운 연속적 물리 제어 trajectory를 부드럽게 생성해 낼 수 있음.
Flow 모델의 계승 및 'Action Expert'

학습 단계의 개요
Architecture
Combining discrete & continuous action representations
Cross Entropy Loss(H): Classification이나 text 생성에서 모델이 예측한 정답 확률 분포와 실제 정답 분포 사이의 차이를 측정하는 지표, 여기서는 FAST 토큰으로 표현된 discrete action과 subtask를 정확하게 맞추기 위해 사용
Flow matching 최소화(): 실제 목표 물리 trajectory(Action Vector Field)와 Flow matching을 담당하는 Action expert()가 예측한 vector값 사이의 거리(제곱 오차)를 구하는 수식, 이 오차가 줄어들수록 로봇의 Continuous trajectory가 부드러워짐.(는 두 손실간의 균형을 맞추는 가중치 파라미터)
Pre-training

Post-training
사전 학습이 끝난 후, Mobile Control 특화 및 Continuous Action 생성을 위해 80k(8만) step동안 fine-tuning을 수행