[논문 리뷰] Learning robust autonomous navigation and locomotion for wheeled-legged robots

너덜핑·2025년 3월 18일

논문 리뷰

목록 보기

2/5

Abstract

본 연구는 적응형 이동 제어(adaptive locomotion control), 이동성 인식 기반의 지역 내비게이션 계획(mobility-aware local navigation planning), 그리고 도시 내 대규모 경로 계획(large-scale path planning)을 포함하는 완전 통합 시스템을 소개한다.

Introduction

Hybrid locomotion은 다리형 로봇 분야에서 여전히 도전적인 영역이다.
- 전통적인 다리형 로봇 방법은 보행 전환을 고려하지 않아 바퀴-다리 로봇에 적용할 경우, 최적이 아니다.
- 일부는 COT(Cost Of Transport-수송비용)를 직접 최적화해서 보행 성능 향상을 시켰지만, 실내 환경이나 로봇이 주로 전방으로 이동하는 보통의 지형에만 한정되어 있다.
- trajectory optimization 기법들을 사용해서 보행을 최적화하고, 복잡한 동작을 만들어내기도 했지만 계산 비용이 너무 많이 들고, 최적에 가까운 초기화에 의존한다.
전통적인 navigation planning 방법은 고도로 동적인 로봇의 고유 특성을 간과하는 경우가 많아서 최적이 아닌 내비게이션 경로를 생성하게 된다.
- 내비게이션 알고리즘은 동적 하이브리드 이동의 특성을 고려해야지만 속도, 효율성, 장애물 극복 능력을 모두 달성할 수 있다.
- 기존 방법은 내비게이션 비용을 기반으로 두지만, 로봇의 전신 상태를 고려하지 않아서 다양한 동적 특성을 반영하지 못한다.-> 빈번한 회전 및 보행 전환이 발생하여 효율성을 저하함
- 바퀴-다리 로봇은 짧은 반응 시간을 요구하므로 더 빠른 제어 시스템을 필요로 한다. 동적 환경이나 인간이 존재하는 상황에서는 전통적인 계획 방법보다 더 빠르고 빈번한 의사결정 능력이 필요하다.
로봇 시스템에서 자율성을 달성하는 것은 다양한 서브 모듈의 매끄러운 통합을 요구하는 상당한 공학적인 과제이다.
- 전통적으로 서브모듈은 독립적으로 개발되며, 모듈 간의 조율은 휴리스틱 방법에 크게 의존한다. 이러한 휴리스틱은 종종 매끄럽고 견고한 작동을 제한한다. ex): Cerberus 팀은 DARPA 지하 챌린지 동안 전통적인 다리형 로봇의 자율 시스템 개발=> 로봇이 자주 멈춤, 재계획 시도, 지그재그 모션을 보였음

=> 본 연구에서는 내비게이션과 이동 제어 간의 매끄러운 조정을 가능하게 하는 대규모 자율 내비게이션 시스템을 바퀴-다리 로봇에 대해 개발했다.

접근법: model-free RL(Reinforcement Learning)이랑 privileged learning을 이용한 Hybrid locomotion control과 HRL(Hierarchical Reinforcement Learning)을 통해 최적화된 내비게이션 제어기를 통합한다.

locomotion과 navigation controller들은 시뮬레이션 데이터를 사용하여 학습하였고, controller 제어기들은 모형 배송 임무를 통해 실제 환경 검증을 위해 설계된 글로벌 내비게이션 프레임워크에 통합되었다. 이 프레임워크 내에서는 디지털 트윈이 활용된다.

Results

Movie 1

System Overview

Robot

three Light Detection and Ranging (LiDAR) sensors, an RGB stereo camera at the front, a delivery box, a 5G router, and a GPS antenna

위 그림 B에 나오듯이
WP1, WP2 두개의 waypoint를 추출함

Locomotion Controller (LLC)

model-free RL을 활용함, RNN-based policy 사용
privileged learning을 통해 시뮬레이션 환경에서 학습됨 (학습 시에만 로봇의 속도, 가속도, 모션 정보, 지형 속서 등등을 privileged 특성으로 사용함)
conventional state estimator 대신에 raw IMU, encoder measurement 사용함

전통적인 방법 말고 HLC는 높은 주파수로 직접 속도 목표를 산출함
LLC policy의 여러 입력 모달리티를 처리함
로봇의 과거 내비게이션 경험을 바탕으로 보다 현명한 결정을 내리게 도와줌
위의 그림 C에서처럼 매번 새로운 obstacle-free path에서 두개의 waypoint를 샘플링한 환경에서 시뮬레이션 됨

Training Environment

Navigation Graph 개념 도입함
시뮬레이션 환경은 Wave Function Collapse(WFC)라는 절차적 콘텐츠 생성 알고리즘을 활용하여 제작되었음
우회로, 동적 장애물, 거친 지형, 좁은 통로 등 다양한 내비게이션 환경임
랜덤하게 장애물의 위치가 주어짐

Kilometer-Scale Autonomous Deployments

Movie 2
Movie S1

다른 urban 환경에서 autonomous navigation mission을 수행함 (모의 delivery mission의 summary 내용)
최소한의 인간 개입으로 로봇은 총 8.3km 주행함
위 그림의 A 부분을 보면, 휴대용 레이저 스캐너를 사용해서 실험 지역의 dense colorpoint cloud를 획득함
245m × 345m 규모의 도시 지역을 커버하는 데 약 90분이 소요됨

point cloud에 지리적으로 참조하고 데이터를 mesh-representation으로 변환해서 내비게이션 그래프 생성함, 사람이 목표 지점 배치함
사전에 스캔된 point cloud를 기준으로 LiDAR,IMU,joint encoder데이터를 사용해서 자기 위치 파악함 -> 단일 GPS 목표만 주어져도 자율적으로 목표 위치로 이동 가능
선택된 목표 지점은 모바일 네트워크를 통해 로봇으로 전송-> 최단 경로 알고리즘을 사용해서 참조 경로가 계산됨 -> 이렇게 생성된 경로는 LiDAR 기반 위치 추정을 통해 로봇 기준 좌표로 변환
GPS 기반 방식보다 더 robust함

3B-iii는 로봇이 주행 중일 때의 속도와 기계적 COT(운송 비용)의 히스토그램
COT = 단위 이동 속도당 actuator가 발휘하는 양의 기계적 동력을 나타냄
우리 로봇은 53% 낮은 COT로 3배 빠른 속도를 보였음

얇은 장애물들을 피할 수 있고, 계단 같은 환경도 잘 다닌다.
HLC와 LLC는 COT값을 최소화하도록 학습 되어서 평탄한 지형에서 주로 로봇이 돌아다녔음
불균일한 표면을 마나면 로봇은 stepping gait로 전환된다. 이런 보행 전환이 수작업 휴리스틱 없이 학습되었음
위 그림의 4B에 나오는 3가지 상황에서 개입하였음. 1. 로봇의 경로에 어린이가 위치한 경우 2. waypoint가 지나갈 수 없는 지역에 위치한 경우 3. 긴 복도와 같이 정보가 부족한 환경에서 위치 추정에 어려움을 겪은 경우

Hybrid Locomotion

너덜핑

이전 포스트

[논문 리뷰] Policy Gradient Methods for Reinforcement Learning with Function Approximation

다음 포스트

[논문 리뷰] Learning robust autonomous navigation and locomotion for wheeled-legged robots

논문 리뷰

Abstract

Introduction

Results

System Overview

Robot

Navigation System

Locomotion Controller (LLC)

Mobility-aware navigation controller (HLC)

Training Environment

Kilometer-Scale Autonomous Deployments

Local Navigation

Hybrid Locomotion

Comparison to a Conventional Navigation Approach

[논문 리뷰] Policy Gradient Methods for Reinforcement Learning with Function Approximation

[논문 리뷰] TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning

0개의 댓글