OFFLINE VISUAL REPRESENTATION LEARNING FOR EMBODIED NAVIGATION

About_work·2024년 3월 11일
0

딥러닝

목록 보기
13/14

abstract

  • 이 논문에서 우리는 실제 환경에서 볼 수 있고, 움직일 수 있는 에이전트에게 시각적 표현을 어떻게 배워야 하는지에 대해 이야기해요.
  • 지금까지는 주로 '백지상태에서 생생하게 배우기' 방식이었어요.
    • 즉, 시각적 표현을 처음부터 배우면서 동시에 움직임을 배우는 건데,
    • 여기에는 두 개의 연속된 관찰 사이에서 취해진 행동을 예측하는 것과 같은 보조 작업이 포함될 수 있어요.
  • 그런데 우리 연구에서는 두 단계 전략(오프라인 시각적 표현 학습(OVRL))이 훨씬 더 효과적이라는 걸 보여줍니다:
    • (1) 실내 환경의 대규모 사전 렌더링 이미지를 사용한 자기지도 학습(SSL)을 통한 오프라인 시각적 표현 사전 학습,
    • 그리고 (2) `이미지 증강과 함께, 특정 과제에서의 시각-운동 표현 온라인 미세 조정.
  • 우리는 대규모 실험을 진행`
    • 3개의 다른 3D 데이터셋(Gibson, HM3D, MP3D), 2가지 작업(IMAGENAV, OBJECTNAV), 그리고 2가지 정책 학습 알고리즘(RL, IL)을 사용했죠.
    • 그 결과, OVRL 표현은 성능 개선을 이끌어냄.
    • 중요한 점은, 사전 학습 중에 보지 못한 데이터셋에 대해서도 같은 시각적 인코더가 일반화되었다는 거예요.
    • 사전 학습의 이점이 때때로 줄어들거나 완전히 사라지기도 하지만, OVRL의 성능 향상은 에이전트가 20억 프레임의 경험으로 훈련될수록 증가하는 것으로 나타났습니다.

Introduction

  • 이 글에서는 실제로 움직이며 주변 환경의 구조와 의미를 이해할 수 있는 AI 에이전트를 어떻게 가르칠지에 대해 이야기하고 있어요.
  • 이것은 집안일을 도와주는 로봇을 만드는 것과 같은 실용적인 관점뿐만 아니라, 올바른 시각-운동 유도 편향이 무엇인지와 같은 과학적인 관점에서도 굉장히 중요한 일이죠.
  • 그렇다면 우리는 실체 작업을 위한 유용한 시각적 표현을 어떻게 배워야 할까요?
  • 우리는 이 논문에서 오프라인 시각적 표현 학습(OVRL)을 제안합니다.
  • OVRL은 시각-운동 학습을 두 단계로 나눕니다:
    • 1) 오프라인에서 시각적 표현 사전 학습과
    • 2) 다운스트림 미세 조정
  • 오프라인 표현 학습 단계에서는 자기지도 학습(SSL) 기술을 사용해 Omnidata라고 불리는 실내 환경 이미지의 대규모 사전 렌더링 데이터셋에서 시각 모델을 훈련시키죠.
  • 그리고 다운스트림 미세 조정에서, 이러한 표현을 IMAGENAV와 OBJECTNAV와 같은 개별 작업에서 Habitat 시뮬레이터에서 fine-tuning해요.
  • 사전 훈련된 모델의 성능 향상이 긴 스케줄로 미세 조정될 때 줄어들거나 완전히 사라진다는 것이 알려져 있지만, 놀랍게도 우리는 OVRL 사전 훈련의 이점이 지속되며, 오히려 감소하는 대신 HM3D 데이터셋을 사용해 IMAGENAV에서 20억 프레임의 훈련을 거치면서 증가한다는 걸 발견했어요.
  • 이는 이러한 작업을 위한 '표준' 훈련 일정에 대해 상당한 재고가 필요함을 시사합니다.
  • 마지막으로, OVRL의 다양한 구성 요소에 대한 광범위한 경험적 분석을 수행하고, 이미지 증강을 통한 인코더 미세 조정이 좋은 성능을 달성하는 데 매우 중요하다는 걸 발견했어요.

  • 이전 연구들에서는 자기지도 학습(SSL)이 이미지 증강을 통한 대조적 학습을 보조 손실로 사용하는 것이 RL(강화학습)과 결합될 수 있다고 제안했어요.
  • 하지만 나중에 성능 향상이 이미지 증강 때문이었다는 걸 알게 됐죠.
  • CPC, CPC|Action, 그리고 ST-Dim 같은 방법들은 시간적 대조 손실의 다양한 변형을 제안했지만, 이 방법들은 복잡성을 추가하고 훈련을 위해 이미지 시퀀스가 필요해요.
  • ATC는 대표 학습과 RL 목표의 첫 번째 분리를 보여주며, 시간적 대조 목표를 훈련하기 위해 이미지 쌍만을 사용해요.
  • 반면에 우리의 방법은 시간적 목표의 어떤 형태도 요구하지 않고, IID(독립 동일 분포) 이미지 컬렉션에서 표현을 배울 수 있어요.
  • PBL, SPR, 그리고 SGI는 BYOL과 유사한 비대조적 시간 손실을 사용하지만, 표현이 붕괴되는 것을 방지하기 위한 추가적인 손실 항이 필요한데, 우리의 방법은 그런 것이 필요 없어요.
  • 시각적 탐색에 대해서는, SLAM 기반 방법과 학습 기반 접근 방법이 제안되었어요.
  • 종단 간 학습 방법은 일반적으로 손으로 만든 모듈을 덜 사용하며 더 많은 약속을 보여줬죠.
  • 메모리 증강 RL은 주의 기반 모델을 사용하여 탐색을 배우고 IMAGENAV에서 SOTA 결과를 얻어요.
  • 반면, 우리는 더 단순한 모델 구조를 사용하면서 더 높은 성능을 달성해요.
  • 단일 카메라 설정에서는 목표 시점 보상과 목표 시점 샘플링의 조합을 사용하여 성능을 향상시켜요.
  • 우리는 이 보상과 시점 샘플링을 사용하면 OVRL 모델에 대해서도 추가적인 개선을 이끌어낼 수 있다는 것을 발견했어요.
  • 마찬가지로, OBJECTNAV를 위한 종단 간 RL 방법들도 존재하며, 데이터 증강과 보조 보상을 사용하여 일반화를 향상시켜요.
  • 반대로, 모듈 방식의 방법들은 탐색과 의미 있는 매핑을 분리해요.
  • 최근에는 대규모 데이터셋을 사용하는 경쟁적인 모방 학습 접근 방법이 제안되었고, 우리는 그 위에 구축해요.
  • 우리는 RGB 표현에 집중하는 반면, 다른 연구에서는 의미 구분을 포함하여 시각적 표현을 향상시켜요.
  • 실제 AI에서의 SSL: EmbCLIP은 CLIP 인코더를 사용하면 EAI 작업에 유용한 표현을 제공할 수 있다고 보여줬어요.
  • CLIP은 4억 개의 이미지-캡션 쌍 데이터셋에서 사전 학습됐어요.
  • 반대로, 우리는 Omnidata Starter Dataset이라고 불리는 훨씬 더 작고 공개된 데이터셋(1450만 이미지)에서 사전 학습을 해요.
  • CRL은 호기심 기반 탐색 정책으로 수집된 샘플을 사용하여 온라인에서 시각적 표현을 배우는 것을 제안하지만, 우리는 실험에서 CRL의 확장된 버전과 비교하고 OVRL이 그것을 크게 능가한다는 것을 발견해요.
  • EPC는 환경 수준의 표현을 자기지도 학습으로 배우지만, 이는 위치 정보가 필요해요. 반면 OVRL 사전 훈련은 그렇지 않아요. 마지막으로, POINTNAV와 OBJECTNAV와 같은 작업에서 훈련 중 보조 목표를 사용하는 것이 도움이 될 수 있다는 것을 보여준 Ye 등의 작업이 있어요. OVRL은 보조 손실 없이도 OBJECTNAV에서 이러한 결과를 능가하며, 두 아이디어를 결합함으로써 가능한 미래의 개선을 남겨둬요.
profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글