ACT: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

Hyunjin Lee·2026년 4월 25일

1. 요약

End-to-end imitation learning을 통해 fine manipulation을 수행. Imitation learning의 문제점을 Action Chunking with Transformer로 해결함:

  • Error 누적 → Action Chunking 및 Temporal Ensemble로 해결
  • CVAE를 통해 인간 시연의 multi-modality를 처리함.

저비용의 재현 가능한 teleoperation 기반 BC가 가능한 양팔로봇 플랫폼을 제안.


2. 문제 정의

저자가 풀고자 하는 문제

  • Learning-based approach로 low-cost HW를 사용해서 fine manipulation 수행
    • 예: 병뚜껑 따기, 케이블타이 묶기 등
  • 기존 정밀 조작 시스템은 고가의 로봇과 하이엔드 센서를 통해 정확한 상태 추정을 했음
  • 본 연구는 접근 가능하고 재현 가능한 저비용 정밀 조작 시스템 개발이 목적
  • 해결책으로 learning을 시스템에 통합

Learning-based 접근이 어려운 이유

  • 정책 성능은 학습 데이터 분포에 크게 의존
  • 인간 시연자의 데이터는 non-stationary → 지도학습 기반 BC에서 문제 발생
    • (데이터 간 확률 분포가 다르기 때문이라 생각)
  • Predict된 행동의 작은 error에도 state에 큰 영향
  • 모방학습의 고질적 문제인 compounding error 심화

3. 기존 접근의 한계

Behavior Cloning

  • 행동을 지도학습 문제로 푸는 경우가 많았음
  • 히스토리 반영 위해 다양한 아키텍처 도입, 목적함수 변경, 정규화 기법 사용

오류 누적 문제

Compounding error: 이전 타임스텝의 오류가 누적 → 로봇이 학습 데이터 분포 이탈 → 회복 불가능한 상태 도달. Fine manipulation에서 더 두드러짐.

기존 해결책들의 한계:

  • DAgger 및 변형: 학습 루프에서 전문가 보정 허용 → 시간 많이 소요, 자연스럽지 않음
  • 데이터 수집 중 노이즈 주입: corrective behavior 데이터 획득 → 정밀 조작에선 작업 실패로 이어질 수 있음, teleoperation 기민성 저하
  • Synthetic correction data: 예) 물건 놓친 경우 그리퍼 토크를 더 준 버전 생성 → 저차원 상태에서만 가능, RGB 같은 고차원 데이터에선 합성 불가능

양손 조작 (Bimanual Manipulation)

  • Classical control: 모델 설계 시간 多, 복잡한 물리적 특성에선 정확도 떨어짐
  • RL / BC + motor primitive: 행동 블록 간 연결 시점 예측. 양손 로봇에 적극 도입됨
  • 하지만 이런 연구들은 da Vinci, ABB YuMi 등 매우 고가의 로봇 사용
  • 본 연구는 팔당 $5,000 수준의 저비용 HW로 고정밀 작업 수행

4. 핵심 아이디어

BC의 오류 누적 문제

  • Sequence 생성에 특화된 Transformer 사용
  • Action Chunk 생성 → effective horizon 축소
    • Effective horizon: 어떤 행동이 미래 몇 스텝까지 영향을 주는지
  • 앙상블 사용 → 정확하고 부드러운 궤적 생성
  • 인간 데이터 다양성 포착 위해 CVAE 사용 → 행동 분포로부터 행동 생성

양손 조작의 문제

  • 고전적 제어의 fine-tuning / 모델링 비용 → learning-based로 해결
  • 기존 학습 기반 플랫폼은 비싸고 재현 어려움 → 팔당 $5,000 수준의 저비용 teleoperation 양팔 로봇 HW 제안

5. 방법

ALOHA HW 구성

  • ViperX 2개 + parallel jaw gripper
    • 가격 및 유지보수 이유로 dexterous hand 미사용
  • 기본 OEM gripper는 정밀 조작에 부적합 → 3D 프린터로 자체 설계 + 그립 테이프 부착
    • SO-ARM에 TPU 재질 대신 적용해볼 수 있을 듯
  • 사용자 친화적 teleoperation: 동일 소형 로봇 통한 직접 joint mapping
    • IK보다 직관적
    • 사람의 과도하게 빠른 움직임 방지

Action Chunking with Transformers

행동 청크란?

  • 직관적 정의: 사탕 포장지 모서리 집기, 배터리 슬롯 끼우기 같은 의미 있는 동작
  • 본 논문 정의: 고정된 k개의 행동
    • 매 k 스텝마다 에이전트가 관측을 받고, 이후 k개 행동을 생성하여 순차 실행

Temporal Ensemble

  • 매 타임스텝마다 prediction → 서로 다른 청크가 시간적으로 겹침
  • 하나의 타임스텝에 여러 행동 예측 존재 → 지수 가중 평균으로 결합
    • wi=exp(mi)w_i = \exp(-m \cdot i)
    • mm이 작을수록 최신 정보가 빠르게 반영됨

인간 데이터 모델링

  • 노이즈 있는 인간 시연 데이터로부터 학습
  • 동일한 관측에서도 인간은 서로 다른 궤적으로 작업 수행
    • 정밀도 중요하지 않은 구간에선 더 확률적
  • Action Chunking Policy를 생성 모델로 학습
  • CVAE 형태로 정책 학습
    • Encoder는 테스트 시 폐기됨
  • Encoder 구조: 현재 관측 + 행동 시퀀스 → 스타일 변수 z의 평균과 분산 예측
    • z는 diagonal Gaussian distribution으로 모델링

ACT 구현

CVAE encoder/decoder를 모두 Transformer로 구현
→ 시퀀스 정보 종합 + 새 시퀀스 생성에 적합

Encoder (BERT 스타일)

  • 입력: 현재 관절 위치, k개 행동 시퀀스, CLS 토큰
  • Transformer 통과 후 CLS 위치의 특징으로 z의 평균/분산 예측

Decoder

  • 입력: 관측 + z
  • 출력: 다음 k개 행동
  • 이미지 인코더: ResNet18
  • 여러 카메라 시점 + 관절 위치 + 스타일 변수 → 일관된 행동 시퀀스 생성

6. 실험

어떤 테스트에서, 누구랑 비교해서, 뭘로 이겼나?

Tasks

  • Slide ziploc, slot battery, open cup, thread velcro, prep tape, put on shoe
  • MuJoCo 시뮬레이션 2개 + 실제 환경 6개

Scripted data: 하드코딩된 policy나 FSM 컨트롤러가 시뮬레이터/간단 환경에서 만든 데이터

데이터 수집

  • 실제 환경: ALOHA teleoperation 사용
    • 각 에피소드 8-14초 (50Hz 기준 400-700 timestep)
    • 작업당 50개 시연 (벨크로만 100개)
    • 작업당 시연 총량 10-20분, 실 소요시간 30-60분 (리셋/실수 포함)
  • 시뮬레이션 환경: 두 종류
    • 인간 시연: ALOHA 리더 로봇으로 가상 로봇 조작, 성공 50개
    • 스크립트 기반 정책: 하드코딩 알고리즘으로 수집

한 사람이 모든 데이터를 수집했더라도 확률적임을 강조 — 에피소드마다 정확한 손 위치가 다르고, 시작 위치도 외우지 않음

Baselines

방법특징
BC-ConvMLP가장 단순. Conv로 이미지 처리 → joint 위치와 결합하여 행동 예측
BeTTransformer 사용, 한 스텝 행동만 예측. 이미지는 별도 인코더로 사전 처리 (perception/control 비공동학습)
RT-1Transformer. 과거 관측 히스토리 → 한 스텝 행동 예측
VINNNon-parametric. 테스트 시 시연 데이터 접근 가정. k-NN으로 행동 반환

BeT, RT-1은 행동 공간 이산화. 출력은 이산 bin에 대한 범주 분포. BeT는 추가로 bin 중심에 대한 연속 오프셋

→ ACT가 모든 task에서 success rate 가장 높음
→ 기존 방법 성능 저하 원인은 오류 누적으로 추정

Ablations

(1) Action Chunking + Temporal Ensembling

  • k=1k=1: action chunking 없음
  • k=max episode lengthk = \text{max episode length}: 완전 open-loop 제어
k 값성공률
11%
10044%
100 초과감소

k가 너무 길면 즉각 반응 어려움 + 긴 시퀀스 모델링 어려움

TE 분석: 사용/미사용 시 최고 성공률 비교

  • ACT, BC-ConvMLP: TE 사용 시 성능 향상
  • VINN: 오히려 하락
    • 데이터셋에서 행동 직접 검색 → 모델링 오차 부드럽게 만들 필요 없음

(2) CVAE

  • CVAE 목적함수 vs L1 loss만으로 학습한 ACT 비교
  • Scripted data: 결정론적 → 성능 저하 없음
  • Human data: multi-modality 가짐 → 성공률 33.3% 감소

인간 시연 학습 시 CVAE 같은 multi-modality 대응 목적함수가 필수

(3) High Frequency

50Hz vs 5Hz teleoperation 비교:

작업5Hz50Hz
케이블타이33초20초
플라스틱 컵 분리16초10초

→ 50Hz는 인간 시연자가 기민하고 정밀한 작업을 빠르게 수행하게 해줌


7. 내 생각

양팔에 로봇손이 있는 경우 teleoperation은?

1. VR/Vision Pro 기반

Bunny-VisionPro (2024) — Apple Vision Pro로 양팔 + 양손 dexterous teleop. Vision Pro의 트래킹으로 손 움직임을 잡아서 로봇 명령으로 변환. arm motion control + dexterous hand retargeting + haptic feedback 세 모듈로 구성 arxiv. ALOHA가 leader-follower로 푼 걸 VR로 푼 버전이라 보면 된다.

2. 단일 카메라 + 손 자세 추정

From One Hand to Multiple Hands (Qin et al., 2022) — 더 영리한 접근이다. iPad 카메라 하나로 손 추적해서 시뮬레이터 안에 사용자 손 형태와 같은 "customized hand"를 만들어서 그걸로 데모 수집. 그 다음 hand pose retargeting으로 실제 dexterous hand(예: Allegro Hand) 데이터로 변환. 이걸로 imitation learning(DAPG) Yzqin.

핵심 트릭: 사람 손 ↔ 로봇 손의 retargeting 문제를 시뮬레이터를 거쳐서 우회. 너 직관("VR 말고 답이 없을 듯")의 반례다.

3. Kinematic twin

Tilde with DeltaHand (2024) — low-cost dexterous hand인 DeltaHand, kinematic twin teleop 인터페이스 TeleHand, diffusion policy 기반 imitation learning 조합. 다만 평가는 in-hand manipulation에 집중되어 있고, arm motion 통합은 future work arXiv로.

내 연구에 Action Chunking을 적용했다면?

사람 지나갈 때 피하는 동작을 BC로 학습 → Action chunking으로 회피 주행 하는것도 방법이었을듯.

납득가는점 / 납득 안되는점

  • 가장 납득이 되는건 Action Chunking의 효과. Sequence출력에 강한 Transformer아키텍처를 통해, 시계열로 일관성이 있는 궤적을 만들어내고, TE를 통해 자연스러운 행동 전환과 부드러운 모션을 만들어낸것은, 멋진 아이디어라고 생각함.
  • 가장 납득이 안되는것은 Teleoperation. 물론 Teleoperation의 장점 분명 존재하지만, Teleoperation의 경우 인간시연자의 숙련도가 가장 큰 이슈가 됨. 그리고 Teleoperation이 눈 앞의 매니퓰레이터를 직접 조작한다는점은, 인간의 행동에 큰 제약을 걸수밖에 없다고생각. 즉. 내가 Parallel jaw로 태어난사람이 아닌 이상, 100퍼센트 완벽한 Fine Manipulate를 위한 데이터를 생성할 순 없음. ALOHA로 최적의 Fine manipulate를 하기 위해선, Teleoperation이 아닌 다른 방식으로 데이터를 생성해야 한다고 생각함.

어떤 가정이 깨지면 무너지나?

Chunking의 한계

  • 즉각적 반응이나 액티브한 상황에서 쓸 수 있을까?
  • 돌발상황 많은 경우 chunking 무너지지 않을까?
  • 반박: 50Hz로 추론 + TE에서 최근 prediction 가중치 크게 하면 대처 가능할 듯

인간도 하기 어려운 작업?

  • Teleoperation으로 양질의 데모가 나온다는 가정이 깨진다면? 결국 Teleoperation의 숙련도로 인해, 데이터의 질이 크게 바뀔것이라 생각됨.
  • 두 매니퓰레이터로 가능한 것 중 teleoperation으로 매우 힘든 task는 어떻게 할까?
  • 현재는 Task 셋업이 거의 Fix되어있는데, 10분의 데모로 되는것은 Fix 된 환경이어서 이지 않을까?

현재 써먹을 수 있는 부분?

  • SO-ARM 은 단일 매니퓰레이터이긴 하지만, 동일한 parallel jaw 로봇이기때문에, ACT기반의 학습이 충분히 가능할거라고 생각함.
  • 현재 Mac Mini 16GB모델 갖고있는데, 2080Ti로 ACT 학습시켰다 했으니, ACT정도는 지금 내 환경에서도 돌릴 수 있음.
  • 모바일로봇에선 어떨까? 이미지가 있으면, 그 이미지에 해당하는 속도 명령(v / w)의 sequence를 생성하면 특정 위치에서 회피주행 같은거 더 쉽게 할 수 있지 않을까? -> 모바일로봇에선 Action Chunking이 안먹힐 수 있음. 로봇과 환경이 독립적으로 움직이기 때문에!

모르는 용어 / 개념

  • CVAE Encoder의 출력은 style variable의 평균과 분산이고, 거기서 샘플링한 z와 관측값(이미지)을 바탕으로 다음 action chunk를 Decoder가 생성함.
    Encoder의 출력인 평균과 분산은 정규분포와의 KL Divergence를 통해 표준정규분포와 가까워지도록 학습됨.
profile
real-time system과 physical AI에 관심이 많습니다.

0개의 댓글