A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence

Woo Yeong CHO·2021년 11월 20일
1

Paper read

목록 보기
1/7
post-thumbnail

Abstract

  • Introduction with learning-based (data-driven) localization and mapping.

  • Revisit the problem of perceiving self-motion and scene understanding with on-board sensors.

Introduction

  • Why do we have to study deep learning for localization and mapping (L&M)?

The advantages of deep-learning method for L&M

1) model based로 풀기 어려웠던 환경적인 제약 조건들 (featureless areas, dynamic lightning, motion blur, ...)에 대해 universal approximator 로써의 역할을 DNN이 수행 (SLAM에서 sementic label이란?)

2) learning method allows spatial machine intelligence systems to learn from past experience, and actively exploit new information.

3) High computational이다. (이게 왜 장점인지는 이해 안됨 ㅎㅎ)

Taxonomy of Existing Approaches
처음에 odometry estimation, mapping, global localization ...이 뭔지 개념 설명으로 시작함

  • Odometry estimation: translation, rotation 정보를 계속 extract하여 여러 high-level task (path planning, decision making)과 같은 task에 입력으로 역할
  • Mapping: 주변 환경을 describe하는 동작. 크게 3가지로 나뉨. (geometric, sementic, general mapping)
  • Global localization: odometry는 연속적으로 local한 pose에 대한 estimation을 하는데, global에 대한 localization도 필요함. drift error나 kidnapped robot과 같은 problem을 겪지 않기 위해서는
  • SLAM: 위에꺼를 다 조합한건데, 이거 말고도 더 있음. (local optimization, global optimization, keyframe detection, loop-closure detection, uncertainty estimation)

Odometry Estimation
Visual Odometry: Deep learning의 high level feature representation에 대한 ability를 visual odometry에 활용할 수 있다.

크게 end-to-end Deep learning (end-to-end VO)과 classic한 방법(hybrid VO)을 섞은 방식으로 나뉜다. end-to-end VO는 다시 supervised VO와 unsupervised VO로 나뉜다.

Supervised VO
여러 supervised VO methods를 제시한다. 입력은 consecutive images들이 되겠고, output으로는 rotation, translation 정보가 되겠다.

First work로써 Konda et al.(visual odometry problem을 classfication으로 바라본 논문), Constante et al.(dense optical flow estimation을 이용) 이 있지만, 이는 end-to-end method가 아니고 그다지 좋은 성능도 얻진 못했다.

DeepVO를 설명, 기존 method들 보다 좋은 성능을 내었고, monocular camera로 부터 온 이미지의 scale-ambiguous함을 DNN으로 잘 해결하였다 (supervised VO 는 absolute scale을 씀). 이후 이 모델을 기반으로 여러 모델이 파생됨.

Unsupervised VO
labeled data없이 학습하는 방법. data labeling에 대한 의존도를 낮출 수 있음. Typical unsupervised VO는 depth network, pose network로 구성된다.

1) SfmLearner 얘기가 쭉 나오다가, 이거에 대한 문제점 (scale ambiguity)을 지적

이러한 문제를 해결하려는 노력~~

2) Photometric consistency constraint는 rigid 물체에 대해서만 고려를 했음. real world application은 dynamic도 많음

이러한 문제를 해결하려는 노력~~

profile
I wanna be a specialist! My previous webpage link https://chowy333.tistory.com/

0개의 댓글