'DynIBaR: Neural Dynamic Image-Based Rendering' Paper Summary (미완)

구명규·2023년 7월 3일
1

'23 Internship Study

목록 보기
6/19
post-thumbnail

Abstract

  Monocular video로부터 새로운 카메라 각도에서의 영상을 생성해내는 작업에 있어 dynamic NeRFs와 같은 현 SOTA 모델들은 번지거나 부정확한 rendering 결과를 보임. 기존 image-based rendering framework의 prior를 활용하여 카메라 경로에 제약을 받지 않는 모델 제안.


1. Introduction

  • 3D scene에 대한 novel view synthesis보다 monocular video에 대한 작업이 더 어려움. 이를 수행하는 HyperNeRF, Neural Scene Flow Fields와 같은 dynamic NeRF 는 물체의 움직임이 복잡하거나 영상의 길이가 긴 경우 제 성능을 발휘하지 못함.

  • 1) Long time duration, 2) unbounded scene, 3) uncontrolled camera trajectories, 4) fast & complex object motion의 영상에 적용 가능한 접근 방식 제안. View-dependent한 volumetric scene representation의 prior를 leverage하며, static & dynamic scene content에 대한 rendering fidelity를 높임.

  • 고정된 장면에 대해 epipolar line 상의 nearby view를 aggregate하여 novel image를 생성하는 모델(aggregation-based methods)을 dynamic scene에 대해 scale up. \rarr Scene motion-adjusted ray space 상에서 feature를 aggregate.

  • 1) 학습된 basis function으로 표현되어 여러 frame을 span하는 motion trajectory field로 영상의 움직임을 모델링. 2) 새로운 temporal photometric loss를 도입하여 temporal coherence 유지. 3) IBR-based motion segmentation technique로 장면을 static component와 dynamic component로 분리.


(생략)


3. Dynamic Image-Based Rendering

  • (I1,I2,...,IN)(I_1, I_2, ... , I_N)의 frame과 (P1,P2,...,PN)(P_1, P_2, ..., P_N)의 camera parameters로 구성된 영상에 대해, reconstruction을 위한 optimization을 먼저 진행한 뒤, 해당 모델로 임의 시간에서의 novel view synthesize 수행.

  • IBR 아이디어를 volumetric rendering framework에 도입하여, volumetric representation으로 scene geometry 모델링.

3.1. Motion-Adjusted Feature Aggregation

  • ii-th frame에 대한 novel view frame을 생성하기 위해, 시간 상으로 인접한 jN(i)=[ir,i+r]j\in N(i)=[i-r, i+r]번째 frame에 대한 camera parameter PjP_j와 shared convolutional encoder network에서 출력된 2D feature map FjF_j으로 tuple {Ij,Pj,Fj}\{I_j, P_j, F_j\}을 구성하여 사용.

  • 정적 장면의 경우, 주변 view의 epipolar line이 target ray에 해당하기 때문에 epipolar lines를 sampling하여 합산할 수 있음. 하지만 동적 장면은 epipolar 제약을 거스르기에 움직임이 고려되지 않는다면 inconsistent feature aggregation으로 이어짐. \Rarr Motion-adjusted feature aggregation 제안.

  • MLP로 각 픽셀에 대한 scene flow field를 estimate하는 것은 computationally infeasible. \Rarr Learned basis functions 기반의 motion trajectory fields 구성. Time ii에서의 ray rr 상에 놓이는 3D point x\bold{x}에 대해, positional encoding γ\gamma와 motion trajectory를 출력하는 MLP GMTG_{MT}로 결정되는 basis coefficients ϕil\phi_i^l은 아래와 같음.

    {ϕil(x)}l=1L=GMT(γ(x),γ(i))\{\phi_i^l(\bold{x})\}^L_{l=1}=G_{\text{MT}}(\gamma(\bold{x}), \gamma(i))
  • 또한 fixed DCT basis의 한계점을 보완하고자 global learnable motion basis {hil}l=1L\{h_i^l\}_{l=1}^L 도입.

    Γx,i(j)=l=1Lhjlϕil(x)\Gamma_{\bold{x}, i}(j)=\sum_{l=1}^Lh_j^l\phi_i^l(\bold{x})
    Δx,i(j)=Γx,i(j)Γx,i(i)\Delta_{\bold{x},i}(j)=\Gamma_{\bold{x},i}(j)-\Gamma_{\bold{x},i}(i)
  • 앞선 estimated motion trajectory Δx,i(j)\Delta_{\bold{x},i}(j)로 time jj에서의 3D point xij\bold{x}_{i\rarr j}를 계산. Camera parameters PjP_j로 source view IjI_j에 projection. fj\bold{f}_j

profile
K'AI'ST 학부생까지의 기록

0개의 댓글