[Paper Review] FurnitureBench: Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation

ququwuqqq·2025년 12월 9일

Paper Review

목록 보기

5/9

INTRODUCTION

FurnitureBench라는 벤치마크에 대해 소개할 예정이다.
KAIST / UC Berkeley
Minho Heo, Youngwoon Lee, Doohyun Lee, Joseph J Lim
논문: https://arxiv.org/pdf/2305.12821
오픈소스: https://github.com/clvrai/furniture-bench
문서(재현법, 시뮬레이션 사용법 등): https://clvrai.github.io/furniture-bench/docs/index.html
데이터셋: https://clvrai.github.io/furniture-bench/docs/tutorials/dataset.html
인용수
93회(2025년 6월 기준)

기존 벤치마크의 문제점

단순하고 짧은 벤치마크
최근 강화학습, 모방학습은 로봇 조작에서 인상적인 성과를 보였다.
그에 비해 존재하는 벤치마크들은 대부분 단순하고 짧은 작업위주이다.
복잡하고 장기적인 벤치마크가 필요하다.

낮은 재현성
로봇, 환경 소프트웨어가 표준화 되어 있지 않아 재현하기에 어려움이 있다.

Sim to real의 한계
현실 세계의 복잡성으로 인해 실제 환경에서 동작하는 것은 보장하지 못하였다.

가구조립

계층적 구조와 장기적 추론이 요구된다.

Ex. 어떤 순서로, 어떻게 조립할지 등

복잡한 경로 계획과 정교한 조작 기술이 요구된다.

Ex. 안정적 파지, 나사 조임 등

가구 조립은 장기 조작 작업을 벤치마크하기에 적합한 과제임을 설명한다.
이에 가구조립 작업을 현실세계에서 수행 가능하며 “재현가능”한 벤치마크인 FurnitureBench를 제안한다.

논문의 주요 기여

복잡한 과제에 대해 RL, IL 알고리즘을 실험하였다.

재현성을 위해 3D 프린팅 가능한 가구 부품을 제공하며, 환경 구성 및 평가 가이드를 함께 제공한다.

오프라인 RL 및 IL을 위해, 200시간 이상 분량의 원격 조작 시연 데이터를 수집 및 제공한다.

다양한 단일 기술을 평가하는 벤치마크를 통해 특히 "삽입"과 "나사 조임" 기술 학습의 어려움을 식별한다.

IL 및 오프라인 RL 알고리즘이 평균적으로 가구조립의 12개의 하위 작업 중 2개까지 수행 가능함을 보인다.

현실 벤치마크를 기반으로 한 시뮬레이터인 FurnitureSim을 개발한였다.

시뮬레이션 기반 벤치마크

대부분 짧고, 단순한 기술에 국한된다.

IKEA Furniture Assembly Environment는 가구조립이라는 복잡한 작업 시뮬레이션을 제공하지만 현실 세계의 복잡성으로 인해 실제 환경에서 동작하는 것은 보장하지 못한다.

기존 현실 세계 조작 벤치마크

단순하고 짧은 작업이 대부분이다.

재현 불가능한 벤치마크도 존재하여 벤치마크로서 의미가 퇴색된다.

로봇 조립 벤치마크

NIST Assembly Task Board는 복잡한 제조 작업과 평가 지표를 제공한다.

로봇, 하드웨어, 관찰 및 행동에 대한 표준화된 실험 설정은 제공하지 않아 재현성 확보에 어려움이 존재한다.

FURNITUREBENCH

재현 가능한 실제 벤치마크 환경

다음과 같은 장비와, 3D 프린팅 가능한 가구 부품 사용한다.

Franka Emika Panda 7자유도(DoF) 로봇 팔 1대
Intel RealSense D435 RGB-D 카메라 3대
작업 공간: IKEA TOMMARYD 블랙 테이블 (전 세계적으로 구입 가능), 3D 프린트된 장애물
배경: 일관된 배경을 위한 초록색 촬영용 배경지
조명: 색온도(4600–6000K)와 밝기(최대 4000루멘)를 조절 가능한 단일 조명
Appendix를 통해 자세한 시스템 구성 방법, 3D프린팅을 위한 가구 레시피 제공

재현성 실험

참가자 10명에게 설명서를 바탕으로 처음부터 환경을 직접 구성하도록 요청하였다.

모든 참가자는 약 3시간 내에 시스템을 완성한다.

똑같은 IQL 정책 모델에 대해 10명의 참가자가 만든 환경에서 다리 하나를 조립하는 작업을 실행한다.

각 환경에서 수행된 평균 단계 수는 원래 환경 대비 75~93% 수준으로 일관되었다.

이로써 배경, 조명, 카메라 시점이 약간씩 달라도 재현 가능한 성능 평가가 가능함을 입증하였따.

사용하기 쉬운 벤치마크

실제 로봇 조작 환경 장벽을 낮추기 위해 전체 로봇 제어 스택을 Docker 이미지 형태로 제공한다.

초기 상태를 일관적으로 초기화 하기 위하여 가구 부품의 초기 자세를 시각적으로 안내해주는 GUI도구 제공한다.

총 219.6시간의 원격 조작 시연 Offline 데이터셋 제공(Oculus Quest 2 컨트롤러)한다.

FurnitureSim: 시뮬레이션 환경

실제 로봇 벤치마크는 느리고 비용이 많이 드는 평가 과정이 단점이 있다.

Isaac Gym(구 Isaac Lab) 및 Factory(Isaac Lab기반) 기반으로 구축하였다.

나사 조이기와 같은 정밀 동작의 빠르고 정확한 시뮬레이션을 지원한다.

실제 환경에서 사용된 것과 동일한 3D 가구 모델과 로봇 제어기를 그대로 사용해 현실 유사성을 높였다.

빠른 렌더링(Fast), 정확한 렌더링(Ray tracing)을 제공한다.

물론 현실과 시뮬레이션 간에는 갭이 존재한다.

IL (ResNet-18 인코더를 활용한 BC) 및 오프라인 RL (R3M feature 기반 IQL)을현실과 시뮬레이션 환경에서 각각 평가하였다.

시뮬레이션 성능과 현실 성능 사이에 명확한 양의 상관관계가 확인하였다.

EXPERIMENTAL SETUP

베이스라인 알고리즘

본 벤치마크에서 모방 학습(BC) 및 최신 오프라인 강화학습 기법(IQL)을 평가하였다.

BC (Behavioral Cloning): 시연 데이터를 기반으로 한 지도학습 방식의 정책 학습, 상태-행동 쌍 (s,a)을 입력으로 하여 정책을 직접 학습한다.
IQL (Implicit Q-Learning): 최신 오프라인 강화학습 알고리즘으로, expectile regression loss을 사용하여 value function를 학습하고, 이로부터 advantage-weighted BC를 수행한다.

Observation

전방 카메라 이미지
손목 카메라 이미지
로봇의 고유 상태 정보(proprioceptive state)
- 말단 이펙터의 위치 및 방향
- 속도
- 그리퍼의 폭

보상

보상함수를 매우 단순하게 정의하였다.

부품 두 개가 성공적으로 조립되었을 때 +1 (N개의 부품조립에 대해 최대보상은 N-1) 그 외에는 0

보상은 부품 간의 상대자세를 기준으로 판단되며, 자세는 AprilTag를 사용하여 추정(추정된 자세는 상태에 주입되지는 않음)한다.

미리 정의된 정답 상대 자세를 기준으로 현재 조립된 두 부품의 상대 자세가 이와 유사하면 성공적인 조립으로 간주한다.

회전 행렬의 각 열 벡터 간 코사인 유사도 ≥ 0.96
x, y, z 방향 오차가 모두 7mm 미만
각 부품마다 고유한 AprilTag가 제공된다.

평가 지표

총 8종의 가구 조립을 수행하였다.

벤치마크의 기본 평가지표는 완료된 가구 조립 횟수이다.

그러나 작업 난이도가 매우 높아, 대부분의 알고리즘이 완료 수 0을 기록하였다.

이를 보완하기 위해 세분화된 진행 상황 지표로서, 각 에피소드에 대해 완료된 단계 수를 추가로 측정한다.

무작위 환경 초기화 수준

자율 로봇의 궁극적인 목표는 모든 가능한 초기 상태를 처리하는 것이다.

초기 상태의 무작위 수준을 세 가지로 나누어 다양한 난이도의 시나리오를 벤치마크가 존재한다.

Low: 각 가구 부품의 위치는 고정되어 있으나, 리셋 과정에서 소량의 노이즈가 포함
Medium: Low 수준의 기준 위치를 기반으로, 각 부품에 대해 이동 노이즈 [−5cm,+5cm] 및회전 노이즈 [−45º,+45º]를 추가
High: 모든 가구 부품을 작업 공간 위에 무작위로 배치

평가절차

로봇 팔이 초기 자세로 이동한다.

제공된 GUI를 사용해, 선택된 무작위성 수준에 따라 가구 부품을 초기화(low / medium / high)한다.

학습된 정책이 로봇을 제어하여 작업을 수행한다. 단, 다음 중 하나에 해당되면 종료한다.

작업 완료
5초 이상 움직임 없음
안전하지 않은 동작 발생
단일 기술(skill)당 350 스텝 초과
총 스텝 수 3000 초과
평가 시에는 AprilTag를 이용하지 않고 사람이 직접 각 단계의 성공 여부를 판단한다.

BENCHMARKING RESULTS

단일기술 벤치마크

정의된 잡기, 밀기, 삽입, 나사 조이기 등의 개별 하위 기술을 분석한다.
가구조립 데이터에서 각 기술별로 수작업으로 분할된 데이터를 개별 학습한다.
초기 상태를 해당 스킬에 맞게 설정하여 성공률을 평가한다.

각 가구 모델에 대해 처음 5단계의 기술을 벤치마크로 사용한다.

잡기와 놓기는 BC로도 안정적으로 학습 가능하다.

삽입은 0~20%의 매우 낮은 성공률을 보였다.

정확한 정렬 및 제어가 필요하고, 정렬 실패 시 분포 밖 상태(out-of-distribution)로 쉽게 이탈했다.

나사 조이기는 의외로 IQL에서 높은 성능 (Ex. 사각 테이블 90%, 책상 70%)을 보였다.

그러나 원형 부품을 사용하는 lamp 및 round_table에서는 성능 급감 (각각 10%, 0%)하였다.

전체기술 벤치마크

전체 가구 조립에 대한 평가를 진행한다.

10개의 에피소드에서 평균적으로 완료된 페이즈 수를 평가한다.

전반적으로, IQL이 BC보다 전반적으로 낫지만 둘 다 완전히 조립하지 못한다.

대부분 첫 번째 부품은 파지 및 지정된 위치에 놓을 수 있다.
삽입 및 나사 조이기와 같은 어려운 단계에서 대부분 실패한다.

초기화 무작위성 수준이 낮을수록 성능 향상되었다.

사각 테이블 조립의 일부인 다리 하나를 조립하는 과제를 설정하였다.
과제 설정은 다음과 같다.

테이블 상판 파지

모서리에 놓기

다리 파지

상판 구멍에 삽입

나사 조이기

IQL-R3M, 항상 다리는 잡지만, 삽입에 60% 실패하였다.

성공 시 대부분 나사 조이기까지 완료하였다.

삽입이 가장 어려운 기술임을 입증하였다.

ablation study

데이터의 다양성이 중요한가? => X

랜덤성으로 인해 다양한 데이터가 존재하는 Med가 Low보다 성능이 좋지 않았다.

데이터가 많을 수록 성능이 향상되는가? => O

Low(1000개 시연), Med(1000개 시연), Mixed(low+med = 2000)에 대해 성능 비교하였다.

손목 카메라가 필요한가? => O

Front카메라만 사용하여 성능 비교하였다.

정책이 AprilTag를 악용하는가? => X

보상 시 포즈를 측정하기 위해 부착된 AprilTag이 존재한다.
포즈 정보가 학습에 사용되지는 않았다는 것을 확인했다.
이미지를 통해 정책이 이를 악용하는지 확인하였다.

Simulation Benchmark

FurnitureSim에서의 책상 다리 하나를 조립하는 Task에 대한 실험을 진행하였다.

시뮬레이터에서 학습된 정책을 실제 환경에 직접 이식하는 것은 어렵지만, 알고리즘이 얼마나 잘 동작하는지에 대한 지표는 될 수 있다.

사용한 이미지 인코더는 다음과 같다.

ResNet-18: 파라미터를 무작위 초기화 후, 정책과 함께 training
R3M, VIP: 사전 학습된 모델을 파인튜닝 없이 그대로 사용

실제와 비슷한 경향성의 결과를 보였다.

IQL이 BC보다 전반적으로 높은 성공률
삽입 및 나사 조이기에서 성능 급감

IQL-VIP는 시뮬레이션에서 IQL-R3M보다 더 나은 성능을 보였지만, 실제 환경에서는 R3M기반 IQL이 더 견고하여 R3M 채택하였다.

Conclusion

FurnitureBench 제안

복잡하고 장기적인 조작 과제이다.

현실 로봇 환경에서 평가할 수 있다.

재현가능한 가구 조립 벤치마크이다.

다음과 같은 리소스를 제공

3D 프린팅 가능한 가구 모델
단계별 환경 구성 가이드
소프트웨어 도구 모음
대규모 원격 조작 시연 데이터셋
시뮬레이터 FurnitureSim

한계점

연구용 로봇팔 사용을 전제로 가구모델이 설계되어 부품 폭이 2CM이상으로 설정되어 실제 가구 조립보다 쉽다.

즉, 전체 가구 크기가 실제보다 작아서 실제 조립과 차이가 있다.

단일 로봇, 단일 과제 기반으로 평가되었다.

추후 다중 로봇, 다중 과제의 확장 가능하다.

기준이 되는 Franka Emika Panda로봇의 단일 팔만 사용중이다.

추후 팔 여러 개를 쓰는 과제로 확장 가능하다.

FurnitureSim은 여전히 실제 환경 간의 차이가 존재한다.

ququwuqqq

이전 포스트

[Paper Review] Soft Actor-Critic

다음 포스트