ACT: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

Hyunjin Lee·2026년 4월 25일

1. 요약

End-to-end imitation learning을 통해 fine manipulation을 수행. Imitation learning의 문제점을 Action Chunking with Transformer로 해결함:

Error 누적 → Action Chunking 및 Temporal Ensemble로 해결
CVAE를 통해 인간 시연의 multi-modality를 처리함.

저비용의 재현 가능한 teleoperation 기반 BC가 가능한 양팔로봇 플랫폼을 제안.

2. 문제 정의

저자가 풀고자 하는 문제

Learning-based approach로 low-cost HW를 사용해서 fine manipulation 수행
- 예: 병뚜껑 따기, 케이블타이 묶기 등
기존 정밀 조작 시스템은 고가의 로봇과 하이엔드 센서를 통해 정확한 상태 추정을 했음
본 연구는 접근 가능하고 재현 가능한 저비용 정밀 조작 시스템 개발이 목적
해결책으로 learning을 시스템에 통합

Learning-based 접근이 어려운 이유

정책 성능은 학습 데이터 분포에 크게 의존
인간 시연자의 데이터는 non-stationary → 지도학습 기반 BC에서 문제 발생
- (데이터 간 확률 분포가 다르기 때문이라 생각)
Predict된 행동의 작은 error에도 state에 큰 영향
모방학습의 고질적 문제인 compounding error 심화

3. 기존 접근의 한계

Behavior Cloning

행동을 지도학습 문제로 푸는 경우가 많았음
히스토리 반영 위해 다양한 아키텍처 도입, 목적함수 변경, 정규화 기법 사용

오류 누적 문제

Compounding error: 이전 타임스텝의 오류가 누적 → 로봇이 학습 데이터 분포 이탈 → 회복 불가능한 상태 도달. Fine manipulation에서 더 두드러짐.

기존 해결책들의 한계:

DAgger 및 변형: 학습 루프에서 전문가 보정 허용 → 시간 많이 소요, 자연스럽지 않음
데이터 수집 중 노이즈 주입: corrective behavior 데이터 획득 → 정밀 조작에선 작업 실패로 이어질 수 있음, teleoperation 기민성 저하
Synthetic correction data: 예) 물건 놓친 경우 그리퍼 토크를 더 준 버전 생성 → 저차원 상태에서만 가능, RGB 같은 고차원 데이터에선 합성 불가능

양손 조작 (Bimanual Manipulation)

Classical control: 모델 설계 시간 多, 복잡한 물리적 특성에선 정확도 떨어짐
RL / BC + motor primitive: 행동 블록 간 연결 시점 예측. 양손 로봇에 적극 도입됨
하지만 이런 연구들은 da Vinci, ABB YuMi 등 매우 고가의 로봇 사용
본 연구는 팔당 $5,000 수준의 저비용 HW로 고정밀 작업 수행

4. 핵심 아이디어

BC의 오류 누적 문제

Sequence 생성에 특화된 Transformer 사용
Action Chunk 생성 → effective horizon 축소
- Effective horizon: 어떤 행동이 미래 몇 스텝까지 영향을 주는지
앙상블 사용 → 정확하고 부드러운 궤적 생성
인간 데이터 다양성 포착 위해 CVAE 사용 → 행동 분포로부터 행동 생성

양손 조작의 문제

고전적 제어의 fine-tuning / 모델링 비용 → learning-based로 해결
기존 학습 기반 플랫폼은 비싸고 재현 어려움 → 팔당 $5,000 수준의 저비용 teleoperation 양팔 로봇 HW 제안

5. 방법

ALOHA HW 구성

ViperX 2개 + parallel jaw gripper
- 가격 및 유지보수 이유로 dexterous hand 미사용
기본 OEM gripper는 정밀 조작에 부적합 → 3D 프린터로 자체 설계 + 그립 테이프 부착
- SO-ARM에 TPU 재질 대신 적용해볼 수 있을 듯
사용자 친화적 teleoperation: 동일 소형 로봇 통한 직접 joint mapping
- IK보다 직관적
- 사람의 과도하게 빠른 움직임 방지

Action Chunking with Transformers

행동 청크란?

직관적 정의: 사탕 포장지 모서리 집기, 배터리 슬롯 끼우기 같은 의미 있는 동작
본 논문 정의: 고정된 k개의 행동
- 매 k 스텝마다 에이전트가 관측을 받고, 이후 k개 행동을 생성하여 순차 실행

Temporal Ensemble

매 타임스텝마다 prediction → 서로 다른 청크가 시간적으로 겹침
하나의 타임스텝에 여러 행동 예측 존재 → 지수 가중 평균으로 결합
- $w_i = \exp(-m \cdot i)$
- $m$ 이 작을수록 최신 정보가 빠르게 반영됨

인간 데이터 모델링

노이즈 있는 인간 시연 데이터로부터 학습
동일한 관측에서도 인간은 서로 다른 궤적으로 작업 수행
- 정밀도 중요하지 않은 구간에선 더 확률적
Action Chunking Policy를 생성 모델로 학습
CVAE 형태로 정책 학습
- Encoder는 테스트 시 폐기됨
Encoder 구조: 현재 관측 + 행동 시퀀스 → 스타일 변수 z의 평균과 분산 예측
- z는 diagonal Gaussian distribution으로 모델링

ACT 구현

CVAE encoder/decoder를 모두 Transformer로 구현
→ 시퀀스 정보 종합 + 새 시퀀스 생성에 적합

Encoder (BERT 스타일)

입력: 현재 관절 위치, k개 행동 시퀀스, CLS 토큰
Transformer 통과 후 CLS 위치의 특징으로 z의 평균/분산 예측

Decoder

입력: 관측 + z
출력: 다음 k개 행동
이미지 인코더: ResNet18
여러 카메라 시점 + 관절 위치 + 스타일 변수 → 일관된 행동 시퀀스 생성

6. 실험

어떤 테스트에서, 누구랑 비교해서, 뭘로 이겼나?

Tasks

Slide ziploc, slot battery, open cup, thread velcro, prep tape, put on shoe
MuJoCo 시뮬레이션 2개 + 실제 환경 6개

Scripted data: 하드코딩된 policy나 FSM 컨트롤러가 시뮬레이터/간단 환경에서 만든 데이터

데이터 수집

실제 환경: ALOHA teleoperation 사용
- 각 에피소드 8-14초 (50Hz 기준 400-700 timestep)
- 작업당 50개 시연 (벨크로만 100개)
- 작업당 시연 총량 10-20분, 실 소요시간 30-60분 (리셋/실수 포함)
시뮬레이션 환경: 두 종류
- 인간 시연: ALOHA 리더 로봇으로 가상 로봇 조작, 성공 50개
- 스크립트 기반 정책: 하드코딩 알고리즘으로 수집

한 사람이 모든 데이터를 수집했더라도 확률적임을 강조 — 에피소드마다 정확한 손 위치가 다르고, 시작 위치도 외우지 않음

Baselines

방법	특징
BC-ConvMLP	가장 단순. Conv로 이미지 처리 → joint 위치와 결합하여 행동 예측
BeT	Transformer 사용, 한 스텝 행동만 예측. 이미지는 별도 인코더로 사전 처리 (perception/control 비공동학습)
RT-1	Transformer. 과거 관측 히스토리 → 한 스텝 행동 예측
VINN	Non-parametric. 테스트 시 시연 데이터 접근 가정. k-NN으로 행동 반환

BeT, RT-1은 행동 공간 이산화. 출력은 이산 bin에 대한 범주 분포. BeT는 추가로 bin 중심에 대한 연속 오프셋

→ ACT가 모든 task에서 success rate 가장 높음
→ 기존 방법 성능 저하 원인은 오류 누적으로 추정

Ablations

(1) Action Chunking + Temporal Ensembling

$k=1$ : action chunking 없음
$k = \text{max episode length}$ : 완전 open-loop 제어

k 값	성공률
1	1%
100	44%
100 초과	감소

k가 너무 길면 즉각 반응 어려움 + 긴 시퀀스 모델링 어려움

TE 분석: 사용/미사용 시 최고 성공률 비교

ACT, BC-ConvMLP: TE 사용 시 성능 향상
VINN: 오히려 하락
- 데이터셋에서 행동 직접 검색 → 모델링 오차 부드럽게 만들 필요 없음

(2) CVAE

CVAE 목적함수 vs L1 loss만으로 학습한 ACT 비교
Scripted data: 결정론적 → 성능 저하 없음
Human data: multi-modality 가짐 → 성공률 33.3% 감소

인간 시연 학습 시 CVAE 같은 multi-modality 대응 목적함수가 필수

(3) High Frequency

50Hz vs 5Hz teleoperation 비교:

작업	5Hz	50Hz
케이블타이	33초	20초
플라스틱 컵 분리	16초	10초

→ 50Hz는 인간 시연자가 기민하고 정밀한 작업을 빠르게 수행하게 해줌

7. 내 생각

양팔에 로봇손이 있는 경우 teleoperation은?

1. VR/Vision Pro 기반

Bunny-VisionPro (2024) — Apple Vision Pro로 양팔 + 양손 dexterous teleop. Vision Pro의 트래킹으로 손 움직임을 잡아서 로봇 명령으로 변환. arm motion control + dexterous hand retargeting + haptic feedback 세 모듈로 구성 arxiv. ALOHA가 leader-follower로 푼 걸 VR로 푼 버전이라 보면 된다.

2. 단일 카메라 + 손 자세 추정

From One Hand to Multiple Hands (Qin et al., 2022) — 더 영리한 접근이다. iPad 카메라 하나로 손 추적해서 시뮬레이터 안에 사용자 손 형태와 같은 "customized hand"를 만들어서 그걸로 데모 수집. 그 다음 hand pose retargeting으로 실제 dexterous hand(예: Allegro Hand) 데이터로 변환. 이걸로 imitation learning(DAPG) Yzqin.

핵심 트릭: 사람 손 ↔ 로봇 손의 retargeting 문제를 시뮬레이터를 거쳐서 우회. 너 직관("VR 말고 답이 없을 듯")의 반례다.

3. Kinematic twin

Tilde with DeltaHand (2024) — low-cost dexterous hand인 DeltaHand, kinematic twin teleop 인터페이스 TeleHand, diffusion policy 기반 imitation learning 조합. 다만 평가는 in-hand manipulation에 집중되어 있고, arm motion 통합은 future work arXiv로.

내 연구에 Action Chunking을 적용했다면?

사람 지나갈 때 피하는 동작을 BC로 학습 → Action chunking으로 회피 주행 하는것도 방법이었을듯.

납득가는점 / 납득 안되는점

가장 납득이 되는건 Action Chunking의 효과. Sequence출력에 강한 Transformer아키텍처를 통해, 시계열로 일관성이 있는 궤적을 만들어내고, TE를 통해 자연스러운 행동 전환과 부드러운 모션을 만들어낸것은, 멋진 아이디어라고 생각함.
가장 납득이 안되는것은 Teleoperation. 물론 Teleoperation의 장점 분명 존재하지만, Teleoperation의 경우 인간시연자의 숙련도가 가장 큰 이슈가 됨. 그리고 Teleoperation이 눈 앞의 매니퓰레이터를 직접 조작한다는점은, 인간의 행동에 큰 제약을 걸수밖에 없다고생각. 즉. 내가 Parallel jaw로 태어난사람이 아닌 이상, 100퍼센트 완벽한 Fine Manipulate를 위한 데이터를 생성할 순 없음. ALOHA로 최적의 Fine manipulate를 하기 위해선, Teleoperation이 아닌 다른 방식으로 데이터를 생성해야 한다고 생각함.

어떤 가정이 깨지면 무너지나?

Chunking의 한계

즉각적 반응이나 액티브한 상황에서 쓸 수 있을까?
돌발상황 많은 경우 chunking 무너지지 않을까?
반박: 50Hz로 추론 + TE에서 최근 prediction 가중치 크게 하면 대처 가능할 듯

인간도 하기 어려운 작업?

Teleoperation으로 양질의 데모가 나온다는 가정이 깨진다면? 결국 Teleoperation의 숙련도로 인해, 데이터의 질이 크게 바뀔것이라 생각됨.
두 매니퓰레이터로 가능한 것 중 teleoperation으로 매우 힘든 task는 어떻게 할까?
현재는 Task 셋업이 거의 Fix되어있는데, 10분의 데모로 되는것은 Fix 된 환경이어서 이지 않을까?

현재 써먹을 수 있는 부분?

SO-ARM 은 단일 매니퓰레이터이긴 하지만, 동일한 parallel jaw 로봇이기때문에, ACT기반의 학습이 충분히 가능할거라고 생각함.
현재 Mac Mini 16GB모델 갖고있는데, 2080Ti로 ACT 학습시켰다 했으니, ACT정도는 지금 내 환경에서도 돌릴 수 있음.
모바일로봇에선 어떨까? 이미지가 있으면, 그 이미지에 해당하는 속도 명령(v / w)의 sequence를 생성하면 특정 위치에서 회피주행 같은거 더 쉽게 할 수 있지 않을까? -> 모바일로봇에선 Action Chunking이 안먹힐 수 있음. 로봇과 환경이 독립적으로 움직이기 때문에!

모르는 용어 / 개념

CVAE Encoder의 출력은 style variable의 평균과 분산이고, 거기서 샘플링한 z와 관측값(이미지)을 바탕으로 다음 action chunk를 Decoder가 생성함.
Encoder의 출력인 평균과 분산은 정규분포와의 KL Divergence를 통해 표준정규분포와 가까워지도록 학습됨.

Hyunjin Lee

real-time system과 physical AI에 관심이 많습니다.

이전 포스트

ROS 기본정리

다음 포스트