NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior

상솜공방·2025년 3월 31일

논문 리뷰

목록 보기

1/55

Abstract

논문의 저자들은 카메라의 포즈 정보 없이 NeRF를 통해 사진을 입체화하는 방법을 제안한다. 해당 방법은 기존의 모델들과 달리 다이나믹한 카메라 이동에서도 정확한 위치를 파악할 수 있다.

1. Introduction

(1) NeRF 학습의 전처리

NeRF는 COLMAP 등의 SfM 알고리즘을 이용한 카메라 파라미터를 사전 정보로 요구한다. 그러나 COLMAP은 다음과 같은 단점이 있다.

처리 시간이 길다.
미분 가능성(differentiability)이 없어 딥러닝과의 결합이 어렵다.

(2) 카메라 포즈를 추정하는 기존의 연구

연구된 모델의 한계점

NeRFmm, BARF, SC-NeRF 등, 카메라 포즈 정보가 주어지지 않아도 이를 예측하는 모델이 개발되었다. 하지만 LLFF와 같은 forward-facing scene에서는 좋은 성능을 보였으나, 다이나믹한 카메라 이동에서의 위치 추정 능력은 좋지 않았다.

원인

이미지간의 상대적인 포즈를 고려하지 않고, 각 이미지마다 독립적으로 카메라 포즈를 추정함. 그러나 SLAM과 Visual Odmetry는 이미지간의 상대적 포즈를 고려하여 그 성능을 높인 것에 아이디어를 얻음.
Radiance field의 형태-복사 모호성 (shape-radiance ambiguity) 문제가 있는 상황에서, 카메라 파라미터까지 추정하려고 하면 모호성이 증가해 학습 수렴이 느려짐.

(3) 저자들의 해결방안

단안 깊이 추정 (mono depth estimation)

하나의 사진으로 깊이를 추정하는 기술로, 다중 시점 스테레오 (multi-view stereo) 기반의 깊이 추정과 달리 카메라 파라미터를 요구하지 않는다.

해당 기술의 한계

하나의 사진에서 깊이를 추정하므로, 깊이 맵 사이에 다중 시점 일관성 (multi-view consistency)이 없다.

저자들의 보완

단안깊이 맵의 왜곡을 없애기 위해 선형변환을 하고, NeRF가 렌더링한 깊이맵과 이를 비교하며 왜곡을 없앤다.
이렇게 얻어진 왜곡이 없는 깊이 맵에 두 가지 손실 함수를 적용하여 카메라 포즈를 좀 더 정확히 예측한다.
- 포인트 클라우드 간에 챔퍼 거리를 줄이도록 학습하여 카메라 포즈를 최적화.
- 연속된 사진의 같은 픽셀은 같은 표면을 표현하므로, 두 픽셀의 색상값을 줄이도록 학습하여 카메라 포즈를 최적화.

두 도표를 하나의 마크다운 양식으로 합친 결과입니다:

기존의 문제점	저자의 해결방안
이미지 간의 상대적 포즈를 고려하지 않음	인접한 프레임의 포인트 클라우드 간 챔퍼 거리를 줄이며 카메라 포즈를 더욱 정확히 예측
NeRF는 광선과 물체가 맞닿는 지점을 확률로 예측하기에 모호한 경계가 종종 생김	단안 깊이맵을 추가적으로 사용
단안 깊이맵은 카메라 파라미터를 사용하지 않으므로, 사진들 간의 깊이맵에 일관성이 없음	NeRF의 딥러닝 네트워크를 학습시켜 일관성이 반영된 깊이맵을 만들고, 이와 비교하며 둘을 동시에 최적화 이 과정에서 연속된 사진 사이의 카메라 위치 관계를 학습시켜 더욱 정확한 카메라 포즈 예측

(1) Novel View Synthesis

Novel View Synthesis란 카메가 촬영하지 않은 장면을 생성해내는 분야로, NeRF는 해당 분야에서 가장 널리 사용되는 방식이다. 다양한 연구들이 추가 정규화, 깊이 사전 정보 등을 활용하여 NeRF의 렌더링 정확성을 향상시켰다. 또한 일부 연구는 NeRF의 학습과 렌더링 속도를 높이는 방법을 개발했다. 그러나 아직도 NeRF는 COLMAP 등의 SfM 알고리즘을 통해 미리 계산된 카메라 파라미터를 사전 정보로 사용한다.

(2) 포즈 최적화를 수행하는 NeRF

최근 연구는 미리 계산된 카메라 파라미터 없이 NeRF를 학습하려는 방향으로 활발히 진행 중이다. 이러한 접근법은 크게 두 가지로 나뉜다. 첫 번째는 SLAM 기반 방법으로, RGB-D 입력 또는 SLAM 추적 시스템으로부터 얻은 정확한 카메라 포즈를 필요로 한다. 두 번째는 NeRF와 직접적으로 카메라 포즈를 함께 최적화하는 방식으로, 본 논문에서는 이를 포즈가 주어지지 않은 NeRF(unposed-NeRF)라고 부른다.

포즈가 주어지지 않은 NeRF 방법들은 카메라 포즈를 NeRF와 함께 최적화하며, 최근 연구들은 카메라 내부(intrinsics), 외부(extrinsics) 파라미터, 카메라 왜곡(distortion), 위치 인코딩(positional encoding), 기하학적 손실(geometric loss) 등을 활용하여 성능을 개선하였다. 하지만 이러한 방법들은 정면 방향의 데이터셋에서는 좋은 결과를 보였지만, 카메라 움직임이 크고 복잡한 경우 여전히 한계가 있다.