출처 : https://arxiv.org/abs/2308.14039
[86] A. Torii, R. Arandjelovic, J. Sivic, M. Okutomi, and T. Pajdla, “24/7 place recognition by view synthesis,” in IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1808–1817, 2015.
[87] Y. Ge, H. Wang, F. Zhu, R. Zhao, and H. Li, “Self-supervising fine-grained region similarities for large-scale image localization,” in European Conference on Computer Vision, pp. 369–386, Springer, 2020.
[88] J. Thoma, D. P. Paudel, and L. V. Gool, “Soft contrastive learning for visual localization,” Advances in Neural Information Processing Systems, vol. 33, pp. 11119–11130, 2020
사전 훈련된 합성곱 신경망(ConvNets)을 사용하여 뷰포인트, 조명 및 이미지 외관에 영향을 줄 수 있는 다른 요소에 불변인 이미지 수준의 특징을 추출
[89] Z. Chen, O. Lam, A. Jacobson, and M. Milford, “Convolutional neural network-based place recognition,” Australasian Conference on Robotics and Automation, 2014.
[90] N. Sunderhauf, S. Shirazi, F. Dayoub, B. Upcroft, and M. Milford, “On the performance of convnet features for place recognition,” in The IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 4297–4304, IEEE, 2015.
훈련 가능한 일반화된 VLAD 레이어
이미지 기반의 코어스 검색과 포즈 기반의 파인 검색을 결합하여 최종 정확한 포즈 추정을 위해 가장 유사한 참조 프레임을 선택
[66] M. Ding, Z. Wang, J. Sun, J. Shi, and P. Luo, “Camnet: Coarse-to-fine retrieval for camera re-localization,” in The International Conference on Computer Vision (ICCV), pp. 2871–2880, 2019.
Target Images (Coarse) : Coarse Retrieval 모듈(ICR)에서 사용되는 대상 이미지를 나타낸다. 이는 초기 추정치를 생성하기 위해 사용되는 이미지들을 의미한다.
Anchor Image : 상대 위치 회귀 및 정확한 상대 위치 회귀를 위한 모듈에서 사용되는 기준 이미지를 나타낸다. 이 이미지는 다른 이미지들과의 상대적인 위치를 추정하는 데 사용된다.
Target Images (Fine) : Pose-based Fine Retrieval 모듈(PFR)에서 사용되는 대상 이미지를 나타낸다. 이는 정확한 상대 위치를 추정하기 위해 사용되는 이미지들을 의미한다.
Anchor Image는 학습 과정에서 미리 정해져 있으며, 모델이 추론할 때는 Anchor Image를 지정하여 입력으로 제공해야 한다.
실제로 모델이 사용하는 이미지는 Target Images (Fine)다. 이 이미지들은 모델이 정확한 상대 위치를 추정하는 데 사용되며, 실시간으로 얻는 이미지들이 될 수 있다. 따라서, 모델이 실시간으로 얻는 이미지들을 Target Images로 사용하여 카메라 재지역화를 수행할 수 있다.
이를 통해 모델은 입력 이미지 간의 상대적인 위치를 추정하고, 카메라의 이동 벡터와 회전 각도를 계산할 수 있다.
전통적으로 로컬 설명자에 의해 결정된 2D-2D 대응에 의존하는 에피폴라 기하학을 사용하여 해결
[93] Q. Zhou, T. Sattler, M. Pollefeys, and L. Leal-Taixe, “To learn or not to learn: Visual localization from essential matrices,” The IEEE International Conference on Robotics and Automation (ICRA), 2019.
[94] I. Melekhov, A. Tiulpin, T. Sattler, M. Pollefeys, E. Rahtu, and J. Kannala, “Dgc-net: Dense geometric correspondence network,” in IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 1034–1042, IEEE, 2019.
[95] B. Zhuang and M. Chandraker, “Fusing the old with the new: Learning relative camera pose with geometry-guided uncertainty,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 32–42, 2021
Paper : https://arxiv.org/abs/2104.08278
상대적인 카메라 자세를 추정하기 위한 UA-Fusion이라는 기하학적 신경망을 제안한다. 이를 위해 두 이미지 간의 대응점을 입력으로 사용하며, ResNet-34와 self-attention 그래프 네트워크를 통해 외관 및 기하적 특징을 추출한다.
이후, 이러한 특징들은 pose 및 uncertainty branch를 통해 상대적인 자세 및 불확실성을 추정한다. 또한, 기하학적 솔루션과 DNN 예측을 Bayes' rule을 사용하여 융합하고, 이를 통해 최종 예측을 얻는다.
딥러닝 기반 접근 방식은 쌍으로 된 이미지로부터 상대 포즈를 직접 회귀
신경망을 사용하여 쿼리와 상위 N개의 랭크된 참조 간의 쌍별 상대 포즈를 추정하고, 예측된 N개의 상대 포즈와 3D 지오메트리 포즈의 참값을 융합하여 절대 쿼리 포즈를 얻기 위한 삼각측량 기반 퓨전 알고리즘을 적용
[62] Z. Laskar, I. Melekhov, S. Kalia, and J. Kannala, “Camera relocalization by computing pairwise relative poses using convolutional neural network,” in The International Conference on Computer Vision (ICCV) Workshops, pp. 929–938, 2017.
Paper : https://arxiv.org/abs/1707.09733
이 논문에서 제안된 방법은 두 가지 모듈로 구성되어 있다.
상대적인 자세를 계산하기 위한 Siamese CNN 네트워크
위치 파이프라인
이전의 방법들과 달리 네트워크의 특정 장면에 대한 훈련이 필요하지 않으며, 이는 확장 가능성을 향상시키고 훈련되지 않은 장면에도 적용 가능하다는 장점을 갖는다.
훈련 시, 입력은 이미지 쌍으로 구성된 데이터셋이며, 각 이미지 쌍은 상대적인 자세를 나타내는 6-DoF 카메라 자세 벡터로 레이블링된다. 이를 사용하여 Siamese CNN을 훈련시키고, 각 쌍의 상대적인 카메라 자세를 예측한다.
추론 시, 입력은 위치를 찾고자 하는 RGB 쿼리 이미지와 해당 이미지의 자세가 알려진 데이터베이스 이미지들이다. Fine-tuned CNN을 사용하여 쿼리 이미지와 데이터베이스 이미지들의 특징 벡터를 추출한다. 그 다음, 추출된 특징 벡터를 사용하여 가장 가까운 이웃 데이터베이스 이미지를 특징 공간에서 식별하고, 이웃들과 쿼리 이미지 간의 상대적인 자세를 계산한다. 이 상대적인 자세 추정이 데이터베이스 이미지의 절대적인 위치와 결합되어 전체 6-DoF 카메라 자세가 생성된다.
카메라 위치 결정에 적합한 전역 설명자 학습을 돕기 위해 frustum overlap loss를 도입
Relocalization 문제를 해결하기 위해 ConvNet을 훈련시켜 단일 RGB 이미지에서 카메라 포즈를 예측하는 최초의 접근 방식
[68] A. Kendall, M. Grimes, and R. Cipolla, “Posenet: A convolutional network for real-time 6-dof camera relocalization,” in The International Conference on Computer Vision (ICCV), pp. 2938–2946, 2015.
차원을 줄이기 위해 LSTM 유닛을 활용
훈련 데이터를 증가시키기 위해 합성 생성을 적용
[70] J. Wu, L. Ma, and X. Hu, “Delving deeper into convolutional neural networks for camera relocalization,” in The IEEE International Conference on Robotics and Automation (ICRA), pp. 5644–5651, IEEE, 2017
[73] T. Naseer and W. Burgard, “Deep regression for monocular camerabased 6-dof global localization in outdoor environments,” in The IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 1525–1530, IEEE, 2017.
[77] P. Purkait, C. Zhao, and C. Zach, “Synthetic view generation for absolute pose regression and image synthesis.,” in British Machine Vision Conference (BMVC), p. 69, 2018
[97] Y. Zhu, R. Gao, S. Huang, S.-C. Zhu, and Y. N. Wu, “Learning neural representation of camera pose with matrix representation of pose shift via view synthesis,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9959–9968, 2021.
백본을 교체
포즈 불확실성을 모델링
[69] A. Kendall and R. Cipolla, “Modelling uncertainty in deep learning for camera relocalization,” in The IEEE International Conference on Robotics and Automation (ICRA), pp. 4762–4769, IEEE, 2016
[78] M. Cai, C. Shen, and I. D. Reid, “A hybrid probabilistic model for camera relocalization,” in British Machine Vision Conference (BMVC), vol. 1, p. 8, 2018
[98] M. Bui, T. Birdal, H. Deng, S. Albarqouni, L. Guibas, S. Ilic, and N. Navab, “6d camera relocalization in ambiguous scenes via continuous multimodal inference,” in European Conference on Computer Vision, pp. 139–157, Springer, 2020.
기하학에 민감한 손실 함수를 도입
어탠션 메커니즘을 통한 특징 연결
[82] B. Wang, C. Chen, C. X. Lu, P. Zhao, N. Trigoni, and A. Markham,
“Atloc: Attention guided camera localization,” The Conference on
Artificial Intelligence (AAAI), 2020.
Paper : https://arxiv.org/abs/1909.03557
Github : https://github.com/BingCS/AtLoc
Visual Encoder: 단일 이미지에서 특징을 추출하는 모듈이다. 이는 이미지를 암시적 표현으로 압축한다.
Attention Module: 어탠션 메커니즘을 사용하여 네트워크가 기하학적으로 견고한 특징에 집중하도록 유도하는 모듈이다. 이 모듈은 추출된 특징을 입력으로 받아, self attention map을 계산하여 새로운 특징 공간으로 재가중치화한다. 이를 통해 네트워크가 동적 객체를 거부하고 기하학적으로 견고한 특징에 집중하도록 유도한다.
Learning Camera Pose: 카메라의 위치와 방향을 추정하는 모듈이다. Attention Module에서 재가중치화된 특징을 입력으로 받아, 카메라의 위치와 방향을 추정한다.
사전 안내 드롭아웃 마스크가 추가로 도입되어 동적 객체로 인한 불확실성을 더욱 제거
이미지 시퀀스의 시간적 제약을 포함하여 시각적 로컬라이제이션을 위해 입력 이미지의 시간적 연결을 모델링
응용 프로그램별로 특정한 경우, 로컬라이제이션 작업에서 학습된 장면 표현은 설계되지 않은 유용한 특징을 무시할 수 있다. 이에 의미 학습과 포즈 회귀 간의 상호 작용을 활용
Paper : https://arxiv.org/abs/1804.08366
그래프 신경망(GNNs)이 다중 뷰 카메라 relocalization 작업을 처리하기 위해 도입되어 프레임 간의 시간적 연결을 넘어 다양한 프레임의 메시지를 전송
[83] F. Xue, X. Wu, S. Cai, and J. Wang, “Learning multi-view camera relocalization with graph neural networks,” in IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 11372–11381, IEEE, 2020.
[102] X. Li and H. Ling, “Pogo-net: Pose graph optimization with graph neural networks,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 5895–5905, 2021.
PoGO-Net은 실시간으로 사용할 수 있는 모델이다. 카메라에서 얻은 이미지를 입력으로 사용하여 해당 이미지에 맞는 카메라 자세를 추정할 수 있다. 이를 위해서는 먼저 이미지에서 특징점을 추출하고, 추출된 특징점을 이용하여 이미지들 간의 상대적인 자세 정보를 추정하여 뷰-그래프를 생성해야 한다. 그리고 이 뷰-그래프를 PoGO-Net의 입력으로 사용하여 카메라의 절대 자세를 추정할 수 있다.
노이즈가 있는 뷰-그래프를 입력으로 받아들이고, 그래프 내의 노드와 엣지에 대한 정보를 활용하여 카메라의 절대 자세를 추정한다. 이를 통해 실시간으로 카메라 자세를 추정할 수 있다.
여러 장면에서 단일 모델을 학습하기 위한 절대 포즈 회귀 패러다임을 확장
Paper : https://arxiv.org/abs/2103.11468
Github : https://github.com/yolish/multi-scene-pose-transformer