[RSH #4] Deep Learning for Visual Localization and Mapping: A Survey

윤하은·2024년 1월 29일

CV machine learning

Robocup Soccer Humanoid

목록 보기

4/4

출처 : https://arxiv.org/abs/2308.14039

IV. GLOBAL RELOCALIZATION

A. Relocalization in a 2D Map

1) Explicit 2D Map Based Relocalization

1. 지리적으로 태그된 이미지(참조) 데이터베이스로 장면을 표현

[86] A. Torii, R. Arandjelovic, J. Sivic, M. Okutomi, and T. Pajdla, “24/7 place recognition by view synthesis,” in IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1808–1817, 2015.
[87] Y. Ge, H. Wang, F. Zhu, R. Zhao, and H. Li, “Self-supervising fine-grained region similarities for large-scale image localization,” in European Conference on Computer Vision, pp. 369–386, Springer, 2020.
[88] J. Thoma, D. P. Paudel, and L. V. Gool, “Soft contrastive learning for visual localization,” Advances in Neural Information Processing Systems, vol. 33, pp. 11119–11130, 2020

사전 훈련된 합성곱 신경망(ConvNets)을 사용하여 뷰포인트, 조명 및 이미지 외관에 영향을 줄 수 있는 다른 요소에 불변인 이미지 수준의 특징을 추출

[89] Z. Chen, O. Lam, A. Jacobson, and M. Milford, “Convolutional neural network-based place recognition,” Australasian Conference on Robotics and Automation, 2014.
[90] N. Sunderhauf, S. Shirazi, F. Dayoub, B. Upcroft, and M. Milford, “On the performance of convnet features for place recognition,” in The IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 4297–4304, IEEE, 2015.

훈련 가능한 일반화된 VLAD 레이어

[91] R. Arandjelovic, P. Gronat, A. Torii, T. Pajdla, and J. Sivic, “Netvlad: Cnn architecture for weakly supervised place recognition,” in IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5297–5307, 2016.

이미지 기반의 코어스 검색과 포즈 기반의 파인 검색을 결합하여 최종 정확한 포즈 추정을 위해 가장 유사한 참조 프레임을 선택

[66] M. Ding, Z. Wang, J. Sun, J. Shi, and P. Luo, “Camnet: Coarse-to-fine retrieval for camera re-localization,” in The International Conference on Computer Vision (ICCV), pp. 2871–2880, 2019.

Paper : https://ieeexplore.ieee.org/document/9008579
- Target Images (Coarse) : Coarse Retrieval 모듈(ICR)에서 사용되는 대상 이미지를 나타낸다. 이는 초기 추정치를 생성하기 위해 사용되는 이미지들을 의미한다.
- Anchor Image : 상대 위치 회귀 및 정확한 상대 위치 회귀를 위한 모듈에서 사용되는 기준 이미지를 나타낸다. 이 이미지는 다른 이미지들과의 상대적인 위치를 추정하는 데 사용된다.
- Target Images (Fine) : Pose-based Fine Retrieval 모듈(PFR)에서 사용되는 대상 이미지를 나타낸다. 이는 정확한 상대 위치를 추정하기 위해 사용되는 이미지들을 의미한다.
- Anchor Image는 학습 과정에서 미리 정해져 있으며, 모델이 추론할 때는 Anchor Image를 지정하여 입력으로 제공해야 한다.
- 실제로 모델이 사용하는 이미지는 Target Images (Fine)다. 이 이미지들은 모델이 정확한 상대 위치를 추정하는 데 사용되며, 실시간으로 얻는 이미지들이 될 수 있다. 따라서, 모델이 실시간으로 얻는 이미지들을 Target Images로 사용하여 카메라 재지역화를 수행할 수 있다.
- 이를 통해 모델은 입력 이미지 간의 상대적인 위치를 추정하고, 카메라의 이동 벡터와 회전 각도를 계산할 수 있다.

2. 이미지에 대한 추가 상대 포즈 추정을 수행하여 쿼리의 더 정확한 포즈 확보

전통적으로 로컬 설명자에 의해 결정된 2D-2D 대응에 의존하는 에피폴라 기하학을 사용하여 해결

[93] Q. Zhou, T. Sattler, M. Pollefeys, and L. Leal-Taixe, “To learn or not to learn: Visual localization from essential matrices,” The IEEE International Conference on Robotics and Automation (ICRA), 2019.
[94] I. Melekhov, A. Tiulpin, T. Sattler, M. Pollefeys, E. Rahtu, and J. Kannala, “Dgc-net: Dense geometric correspondence network,” in IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 1034–1042, IEEE, 2019.
[95] B. Zhuang and M. Chandraker, “Fusing the old with the new: Learning relative camera pose with geometry-guided uncertainty,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 32–42, 2021

Paper : https://arxiv.org/abs/2104.08278
- 상대적인 카메라 자세를 추정하기 위한 UA-Fusion이라는 기하학적 신경망을 제안한다. 이를 위해 두 이미지 간의 대응점을 입력으로 사용하며, ResNet-34와 self-attention 그래프 네트워크를 통해 외관 및 기하적 특징을 추출한다.
- 이후, 이러한 특징들은 pose 및 uncertainty branch를 통해 상대적인 자세 및 불확실성을 추정한다. 또한, 기하학적 솔루션과 DNN 예측을 Bayes' rule을 사용하여 융합하고, 이를 통해 최종 예측을 얻는다.

딥러닝 기반 접근 방식은 쌍으로 된 이미지로부터 상대 포즈를 직접 회귀

신경망을 사용하여 쿼리와 상위 N개의 랭크된 참조 간의 쌍별 상대 포즈를 추정하고, 예측된 N개의 상대 포즈와 3D 지오메트리 포즈의 참값을 융합하여 절대 쿼리 포즈를 얻기 위한 삼각측량 기반 퓨전 알고리즘을 적용
[62] Z. Laskar, I. Melekhov, S. Kalia, and J. Kannala, “Camera relocalization by computing pairwise relative poses using convolutional neural network,” in The International Conference on Computer Vision (ICCV) Workshops, pp. 929–938, 2017.

Paper : https://arxiv.org/abs/1707.09733
- 이 논문에서 제안된 방법은 두 가지 모듈로 구성되어 있다.
  - 상대적인 자세를 계산하기 위한 Siamese CNN 네트워크
  - 위치 파이프라인
- 이전의 방법들과 달리 네트워크의 특정 장면에 대한 훈련이 필요하지 않으며, 이는 확장 가능성을 향상시키고 훈련되지 않은 장면에도 적용 가능하다는 장점을 갖는다.
  1. 입력으로는 위치를 찾고자 하는 RGB 쿼리 이미지와 해당 이미지의 자세가 알려진 데이터베이스 이미지들이 사용된다.
  2. 훈련 이미지 쌍을 구성하고, 이를 사용하여 Siamese CNN을 훈련시켜 각 쌍의 상대적인 카메라 자세를 예측한다.
  3. 각 훈련된 브랜치는 특징 추출기로 간주되며, 추출된 특징 벡터는 쿼리 이미지와 가장 가까운 이웃 데이터베이스 이미지를 특징 공간에서 식별하는 데에 사용된다.
  4. 쿼리와 그 이웃들 간의 상대적인 자세 추정이 계산되고, 이를 토대로 새로운 융합 알고리즘에서 데이터베이스 이미지의 절대적인 위치와 결합되어 전체 6-DoF 카메라 자세가 생성된다.
- 훈련 시, 입력은 이미지 쌍으로 구성된 데이터셋이며, 각 이미지 쌍은 상대적인 자세를 나타내는 6-DoF 카메라 자세 벡터로 레이블링된다. 이를 사용하여 Siamese CNN을 훈련시키고, 각 쌍의 상대적인 카메라 자세를 예측한다.
- 추론 시, 입력은 위치를 찾고자 하는 RGB 쿼리 이미지와 해당 이미지의 자세가 알려진 데이터베이스 이미지들이다. Fine-tuned CNN을 사용하여 쿼리 이미지와 데이터베이스 이미지들의 특징 벡터를 추출한다. 그 다음, 추출된 특징 벡터를 사용하여 가장 가까운 이웃 데이터베이스 이미지를 특징 공간에서 식별하고, 이웃들과 쿼리 이미지 간의 상대적인 자세를 계산한다. 이 상대적인 자세 추정이 데이터베이스 이미지의 절대적인 위치와 결합되어 전체 6-DoF 카메라 자세가 생성된다.

카메라 위치 결정에 적합한 전역 설명자 학습을 돕기 위해 frustum overlap loss를 도입

[65] V. Balntas, S. Li, and V. Prisacariu, “Relocnet: Continuous metric learning relocalisation using neural nets,” in The European Conference on Computer Vision (ECCV), pp. 751–767, 2018.

2) Implicit 2D Map Based Relocalization

싱글 이미지에서 카메라 포즈를 직접 회귀함으로써 딥 뉴럴 네트워크 내에서 2D 지도를 암시적으로 표현

Relocalization 문제를 해결하기 위해 ConvNet을 훈련시켜 단일 RGB 이미지에서 카메라 포즈를 예측하는 최초의 접근 방식

[68] A. Kendall, M. Grimes, and R. Cipolla, “Posenet: A convolutional network for real-time 6-dof camera relocalization,” in The International Conference on Computer Vision (ICCV), pp. 2938–2946, 2015.
- 문제의 기하학적인 구조를 고려하지 않는 단순한 회귀 손실 함수로 설계되었다. 이로 인해 고가의 수작업 조정이 필요한 하이퍼파라미터가 생기며, 새로운 장면에 대해 일반화되지 않을 수 있다. 또한, 특징 임베딩의 고차원성과 제한된 훈련 데이터로 인해 PoseNet은 오버피팅 문제를 겪을 수 있다.

차원을 줄이기 위해 LSTM 유닛을 활용

[74] F. Walch, C. Hazirbas, L. Leal-Taixe, T. Sattler, S. Hilsenbeck, and D. Cremers, “Image-based localization using lstms for structured feature correlation,” in The International Conference on Computer Vision (ICCV), pp. 627–637, 2017.

훈련 데이터를 증가시키기 위해 합성 생성을 적용

[70] J. Wu, L. Ma, and X. Hu, “Delving deeper into convolutional neural networks for camera relocalization,” in The IEEE International Conference on Robotics and Automation (ICRA), pp. 5644–5651, IEEE, 2017
[73] T. Naseer and W. Burgard, “Deep regression for monocular camerabased 6-dof global localization in outdoor environments,” in The IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 1525–1530, IEEE, 2017.
[77] P. Purkait, C. Zhao, and C. Zach, “Synthetic view generation for absolute pose regression and image synthesis.,” in British Machine Vision Conference (BMVC), p. 69, 2018
[97] Y. Zhu, R. Gao, S. Huang, S.-C. Zhu, and Y. N. Wu, “Learning neural representation of camera pose with matrix representation of pose shift via view synthesis,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9959–9968, 2021.

백본을 교체

[75] I. Melekhov, J. Ylioinas, J. Kannala, and E. Rahtu, “Image-based localization using hourglass networks,” in The International Conference on Computer Vision (ICCV) Workshops, pp. 879–886, 2017.

포즈 불확실성을 모델링

[69] A. Kendall and R. Cipolla, “Modelling uncertainty in deep learning for camera relocalization,” in The IEEE International Conference on Robotics and Automation (ICRA), pp. 4762–4769, IEEE, 2016
[78] M. Cai, C. Shen, and I. D. Reid, “A hybrid probabilistic model for camera relocalization,” in British Machine Vision Conference (BMVC), vol. 1, p. 8, 2018
[98] M. Bui, T. Birdal, H. Deng, S. Albarqouni, L. Guibas, S. Ilic, and N. Navab, “6d camera relocalization in ambiguous scenes via continuous multimodal inference,” in European Conference on Computer Vision, pp. 139–157, Springer, 2020.

기하학에 민감한 손실 함수를 도입

[72] A. Kendall and R. Cipolla, “Geometric loss functions for camera pose regression with deep learning,” in IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5974–5983, 2017.

어탠션 메커니즘을 통한 특징 연결

[82] B. Wang, C. Chen, C. X. Lu, P. Zhao, N. Trigoni, and A. Markham,
“Atloc: Attention guided camera localization,” The Conference on
Artificial Intelligence (AAAI), 2020.

Paper : https://arxiv.org/abs/1909.03557
Github : https://github.com/BingCS/AtLoc
- Visual Encoder: 단일 이미지에서 특징을 추출하는 모듈이다. 이는 이미지를 암시적 표현으로 압축한다.
- Attention Module: 어탠션 메커니즘을 사용하여 네트워크가 기하학적으로 견고한 특징에 집중하도록 유도하는 모듈이다. 이 모듈은 추출된 특징을 입력으로 받아, self attention map을 계산하여 새로운 특징 공간으로 재가중치화한다. 이를 통해 네트워크가 동적 객체를 거부하고 기하학적으로 견고한 특징에 집중하도록 유도한다.
- Learning Camera Pose: 카메라의 위치와 방향을 추정하는 모듈이다. Attention Module에서 재가중치화된 특징을 입력으로 받아, 카메라의 위치와 방향을 추정한다.

사전 안내 드롭아웃 마스크가 추가로 도입되어 동적 객체로 인한 불확실성을 더욱 제거

[80] Z. Huang, Y. Xu, J. Shi, X. Zhou, H. Bao, and G. Zhang, “Prior guided dropout for robust visual localization in dynamic environments,” in The International Conference on Computer Vision (ICCV), pp. 2791–2800, 2019.

이미지 시퀀스의 시간적 제약을 포함하여 시각적 로컬라이제이션을 위해 입력 이미지의 시간적 연결을 모델링

[71] R. Clark, S. Wang, A. Markham, N. Trigoni, and H. Wen, “VidLoc: A Deep Spatio-Temporal Model for 6-DoF Video-Clip Relocalization,” in IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

응용 프로그램별로 특정한 경우, 로컬라이제이션 작업에서 학습된 장면 표현은 설계되지 않은 유용한 특징을 무시할 수 있다. 이에 의미 학습과 포즈 회귀 간의 상호 작용을 활용

[101] N. Radwan, A. Valada, and W. Burgard, “Vlocnet++: Deep multitask learning for semantic visual localization and odometry,” IEEE Robotics and Automation Letters, vol. 3, no. 4, pp. 4407–4414, 2018.

Paper : https://arxiv.org/abs/1804.08366

그래프 신경망(GNNs)이 다중 뷰 카메라 relocalization 작업을 처리하기 위해 도입되어 프레임 간의 시간적 연결을 넘어 다양한 프레임의 메시지를 전송

[83] F. Xue, X. Wu, S. Cai, and J. Wang, “Learning multi-view camera relocalization with graph neural networks,” in IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 11372–11381, IEEE, 2020.
[102] X. Li and H. Ling, “Pogo-net: Pose graph optimization with graph neural networks,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 5895–5905, 2021.

Paper : https://ieeexplore.ieee.org/document/9709983
- PoGO-Net은 실시간으로 사용할 수 있는 모델이다. 카메라에서 얻은 이미지를 입력으로 사용하여 해당 이미지에 맞는 카메라 자세를 추정할 수 있다. 이를 위해서는 먼저 이미지에서 특징점을 추출하고, 추출된 특징점을 이용하여 이미지들 간의 상대적인 자세 정보를 추정하여 뷰-그래프를 생성해야 한다. 그리고 이 뷰-그래프를 PoGO-Net의 입력으로 사용하여 카메라의 절대 자세를 추정할 수 있다.
- 노이즈가 있는 뷰-그래프를 입력으로 받아들이고, 그래프 내의 노드와 엣지에 대한 정보를 활용하여 카메라의 절대 자세를 추정한다. 이를 통해 실시간으로 카메라 자세를 추정할 수 있다.

여러 장면에서 단일 모델을 학습하기 위한 절대 포즈 회귀 패러다임을 확장

[84] Y. Shavit, R. Ferens, and Y. Keller, “Learning multi-scene absolute pose regression with transformers,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 2733–2742, 2021.

Paper : https://arxiv.org/abs/2103.11468
Github : https://github.com/yolish/multi-scene-pose-transformer