[paper review] Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

dusruddl2·2024년 4월 1일

논문Review

목록 보기

5/6

https://www.youtube.com/watch?v=EYWHjrW-Xoo
다음 영상을 보고 기록하였습니다.

전통적인 3D 표현 vs NeRF

NeRF는 해당 물체를 모든 방향에서 봐도 이미지를 생성해서 볼 수 있다면 3D 렌더링했다고 간주함.
(기존에 3D 공간 자체가 정의되었던 방식과 차이가 있음!)

[장점]

매우 작은 값으로 방향을 바꾸어도 해당 Scene을 생성할 수 있기 때문에 부드러운 표현 가능

3D 지도 같은 경우, 이를 NeRF가 아닌 3D Point나 Mesh로 표현하면 엄청난 메모리가 필요함.
그러나 NeRF는 View Synthesis이기 때문에 사용되는 메모리는 매우 작고 생성하는데 매우 빠름

NeRF (ECCV 2020)

Structure from Motion을 위해 COLMAP을 많이 사용.
본래 COLMAP은 이미지로 3D Point를 생성하기 위해 사용하지만, 3D Reconstruction할 때 카메라 포즈를 뽑는데도 사용 가능

네트워크 구조 | Positional Encoding

MLP에 입력되는 위치와 방향값은 그냥 입력되는 것이 아니라 Positional Encoding을 통해 고차원으로 매핑하여 입력됨! (like Data augmentation)

이와 같이 Positional Encoding을 하지 않으면, 고주파를 학습하지 못해서 화질이 낮음

(x,y,z) 3차원 -> 60차원 (L=10)
( $\theta, \phi$ ) 2차원 -> 24차원 (L=6)

=> 고주파 부분도 학습 가능

Instant NeRF

Positional Encoding 대신에 Multi-resolution Hash Encoding

기존 9개의 Layer -> 3개의 Layer
각 Layer의 차원 수 256 - > 64
(Simple MLP)

=> 학습 속도 빠르게 향상

해당 샘플 포인트를 기준으로 정사각형이 감싸게 됨
(그림은 정사각형이지만, 실제 3D에서는 정육면체 voxel)

Multiresolution Hash Encoding의 내용은 다음과 같다.
1. ray를 쏘는 pixel 기준으로 샘플 포인트를 고른다
2. pixel 위에는 다양한 정사각형(2D), 혹은 voxel(3D)가 생길 것인데 (#levels에 따라 개수는 다르겠지만) -> 이들의 꼭짓점 좌표를 저장한다
3&4. 그리고 hash function을 통과시켜 hash index값을 구한다
5. hash table을 참고하여 hash index에 해당하는 feature vector을 각 꼭짓점마다 구하고 이들을 interpolation을 통해 2차원의 feature vector 만들기
6. 다른 정사각형(2D) or voxel(3D)과도 concatenation하여 하나의 최종 vector을 만들기