논문의 저자들은 카메라의 포즈 정보 없이 NeRF를 통해 사진을 입체화하는 방법을 제안한다. 해당 방법은 기존의 모델들과 달리 다이나믹한 카메라 이동에서도 정확한 위치를 파악할 수 있다.
NeRF는 COLMAP 등의 SfM 알고리즘을 이용한 카메라 파라미터를 사전 정보로 요구한다. 그러나 COLMAP은 다음과 같은 단점이 있다.
NeRFmm, BARF, SC-NeRF 등, 카메라 포즈 정보가 주어지지 않아도 이를 예측하는 모델이 개발되었다. 하지만 LLFF와 같은 forward-facing scene에서는 좋은 성능을 보였으나, 다이나믹한 카메라 이동에서의 위치 추정 능력은 좋지 않았다.
하나의 사진으로 깊이를 추정하는 기술로, 다중 시점 스테레오 (multi-view stereo) 기반의 깊이 추정과 달리 카메라 파라미터를 요구하지 않는다.
하나의 사진에서 깊이를 추정하므로, 깊이 맵 사이에 다중 시점 일관성 (multi-view consistency)이 없다.
두 도표를 하나의 마크다운 양식으로 합친 결과입니다:
| 기존의 문제점 | 저자의 해결방안 |
|---|---|
| 이미지 간의 상대적 포즈를 고려하지 않음 | 인접한 프레임의 포인트 클라우드 간 챔퍼 거리를 줄이며 카메라 포즈를 더욱 정확히 예측 |
| NeRF는 광선과 물체가 맞닿는 지점을 확률로 예측하기에 모호한 경계가 종종 생김 | 단안 깊이맵을 추가적으로 사용 |
| 단안 깊이맵은 카메라 파라미터를 사용하지 않으므로, 사진들 간의 깊이맵에 일관성이 없음 | NeRF의 딥러닝 네트워크를 학습시켜 일관성이 반영된 깊이맵을 만들고, 이와 비교하며 둘을 동시에 최적화 이 과정에서 연속된 사진 사이의 카메라 위치 관계를 학습시켜 더욱 정확한 카메라 포즈 예측 |
Novel View Synthesis란 카메가 촬영하지 않은 장면을 생성해내는 분야로, NeRF는 해당 분야에서 가장 널리 사용되는 방식이다. 다양한 연구들이 추가 정규화, 깊이 사전 정보 등을 활용하여 NeRF의 렌더링 정확성을 향상시켰다. 또한 일부 연구는 NeRF의 학습과 렌더링 속도를 높이는 방법을 개발했다. 그러나 아직도 NeRF는 COLMAP 등의 SfM 알고리즘을 통해 미리 계산된 카메라 파라미터를 사전 정보로 사용한다.
최근 연구는 미리 계산된 카메라 파라미터 없이 NeRF를 학습하려는 방향으로 활발히 진행 중이다. 이러한 접근법은 크게 두 가지로 나뉜다. 첫 번째는 SLAM 기반 방법으로, RGB-D 입력 또는 SLAM 추적 시스템으로부터 얻은 정확한 카메라 포즈를 필요로 한다. 두 번째는 NeRF와 직접적으로 카메라 포즈를 함께 최적화하는 방식으로, 본 논문에서는 이를 포즈가 주어지지 않은 NeRF(unposed-NeRF)라고 부른다.
포즈가 주어지지 않은 NeRF 방법들은 카메라 포즈를 NeRF와 함께 최적화하며, 최근 연구들은 카메라 내부(intrinsics), 외부(extrinsics) 파라미터, 카메라 왜곡(distortion), 위치 인코딩(positional encoding), 기하학적 손실(geometric loss) 등을 활용하여 성능을 개선하였다. 하지만 이러한 방법들은 정면 방향의 데이터셋에서는 좋은 결과를 보였지만, 카메라 움직임이 크고 복잡한 경우 여전히 한계가 있다.
수식을 이해하기 위해 직접 써가며 정리하였습니다.






