[논문 리뷰] Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

김성윤(Jack)·2026년 4월 7일

논문 리뷰

목록 보기

34/60

1. 배경 및 문제점

최근 로봇 공학에서는 시각, 언어, 행동 데이터를 하나로 통합하여 처리하는 VLA(Vision-Language-Action) 모델이 핵심 기술로 활용되고 있습니다. 이 모델들이 로봇의 조작 능력을 높이기 위해 기본적으로 채택하는 방식이 액션 청킹(Action Chunking)입니다. 액션 청킹은 로봇이 매 순간 다음 행동을 계산하는 대신, 여러 개의 연속된 행동을 하나의 묶음(청크)으로 계획하여 중간 수정 없이 한 번에 실행하는 기법입니다.

하지만 이 청크의 길이를 얼마로 설정할 것인지에 대한 딜레마가 존재합니다. 청크가 길면 로봇이 동작 중에 발생하는 새로운 시각 정보나 환경 변화에 즉각적으로 반응하지 못합니다. 반대로 청크가 짧으면 동작과 동작 사이가 끊기면서 로봇이 부자연스럽게 떨리거나 일관성 없는 움직임을 보이게 됩니다. 현재 대부분의 VLA 모델은 수많은 실험을 통해 알아낸 고정된 길이의 청크를 일괄적으로 사용하고 있습니다. 이러한 고정 방식은 작업의 종류나 환경의 변화에 유연하게 대응할 수 없어 성능을 극대화하는 데 근본적인 장애물이 되고 있습니다.

2. 제안 방법

본 논문은 고정 길이 청크의 한계를 극복하기 위해, 추론 과정에서 최적의 청크 크기를 동적으로 찾아내는 적응형 액션 청킹(AAC, Adaptive Action Chunking) 알고리즘을 제안합니다. 이 방법은 모델이 예측한 행동의 불확실성을 나타내는 엔트로피를 활용하여 최적의 길이를 계산합니다.

로봇의 행동은 그리퍼의 개폐와 같은 이산 제어와 팔의 이동 및 회전과 같은 연속 제어로 구분되며, 알고리즘은 각각에 맞는 엔트로피를 적용합니다. 먼저 이산 제어의 경우, 특정 행동이 발생할 확률 $p(a)$ 를 추정하여 섀넌 엔트로피를 구합니다.

E_{\rm{dis}} = -\sum_{a \in \mathcal{A}} p(a)\log(p(a))

연속 제어의 경우, 행동 예측값들의 공분산 행렬 $\Sigma_t$ 와 행동의 자유도 $d$ 를 활용하여 가우시안 미분 엔트로피를 산출합니다.

E_c = \frac{1}{2}\log[(2\pi e)^d\det(\Sigma_t)]

알고리즘은 여러 후보 청크를 병렬로 생성한 뒤, 현재 시점 $t$ 부터 특정 청크 크기 $h$ 까지의 각 제어 요소( $j$ )별 엔트로피를 모두 누적하여 스텝 당 평균 불확실성 $\overline{E}_h$ 를 계산합니다.

\overline{E}_h = \frac{1}{h}\sum_{i=t}^{t+h-1} \sum_{j \in \{t,r,g\}} E_j^i

마지막으로 알고리즘은 청크 크기 $h$ 를 늘려가며 이 평균 불확실성이 급격히 증가하기 직전의 시점을 찾아냅니다. 이때 너무 짧은 청크로 인해 동작이 비효율적으로 끊기는 것을 막기 위해 최소 행동 크기 $\xi$ 를 하한선으로 설정하여 최종적인 최적 청크 크기 $h^*$ 를 결정합니다.

h^* = \max(\arg\max_h(\overline{E}_{h+1} - \overline{E}_h), \xi)

3. 실험 결과

제안된 알고리즘은 시뮬레이션 벤치마크와 실제 로봇 조작 환경에서 평가되었습니다. 실험 결과, AAC 방식은 기존의 고정 크기 방식들보다 향상된 작업 평균 성공률을 달성했습니다. 알고리즘은 로봇이 대상 물체에 접근하거나 집어 든 물체를 운반할 때는 긴 청크를 선택하여 빠르게 이동시켰고, 정밀하게 물체를 파지해야 하는 순간에는 짧은 청크를 선택하여 반응성을 극대화했습니다. 이는 작업의 각 단계에 맞춰 직관적으로 대응하는 패턴을 입증합니다.

4. 한계점 및 시사점

이 연구가 주는 시사점은 모델의 내부 구조를 수정하거나 파라미터를 다시 학습시킬 필요 없이, 기존에 훈련된 VLA 모델의 추론 과정에 즉시 적용할 수 있는 범용성을 제공한다는 것입니다. 반면 명확한 한계점도 존재합니다. 매 스텝 최적의 크기를 계산하기 위해 여러 후보군을 병렬로 샘플링하는 과정에서 약 20ms 수준의 연산 지연이 발생합니다. 또한, 모델이 훈련 데이터에서 전혀 보지 못한 외부 교란 환경에 노출될 경우, 단순히 청크 크기를 조절하는 것만으로는 근본적인 인식 및 제어 실패를 방지할 수 없다는 제약이 확인되었습니다.

김성윤(Jack)

AI 공부합니다

이전 포스트

[논문 리뷰] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

다음 포스트