4D Gaussian Splatting for Real-Time Dynamic Scene Rendering 리뷰

신희준·2026년 4월 24일

Inverse Graphics

목록 보기
13/15

[4D Gaussian Splatting for Real-Time Dynamic Scene Rendering]([2310.08528] 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering) (Guanjun Wu, Taoran Yi, Jiemin Fang, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Qi Tian, Xinggang Wang / CVPR 2024)

Real-time dynamic scene rendering 연구

  • Deformation network 활용해서 gaussian splat을 시간별로 deform하고 splat하는 방식

Problem

  • 3DGS는 static scene을 가정하기 때문에, dynamic scene에서는 잘 작동하지 않음
    Real-time dynamic scene rendering을 하고자 함
  • Time t마다 scene을 저장할 수는 없음.
    → Dynamic scene rendering을 하려면 time 축에 대한 고려가 필수적

Methodology

Dynamic scene rendering 방법

  • NeRF의 경우 dynamic scene을 다루려는 연구가 이전에도 있었음.
  1. 먼저 (a)와 같이 deformation field를 학습하여 ray point들을 time마다 다르게 mapping하여 rendering하는 경우가 있고,

    c,σ=NeRF(x+Δx,d,λ)c,\sigma=\text{NeRF}(x+\Delta x,d,\lambda)
  1. (b)와 같이 time마다 point feature를 다르게 추출하여 rendering하는 방식이 있었음

⇒ 이 연구는 deformation field의 철학을 따르나, Dynamic NeRF에서의 deformation과는 조금 다른 방법을 활용

  • Dynamic NeRF는 현재 시점의 좌표가 과거의 어디였을까를 계산 (World-to-Canonical)
    • t 에서 ray를 쏘고 point sample하면, deformation network가 이 점들을 각각 canonical space로 역매핑 (xx+Δxx \to x + \Delta x)

      ☑️ 하나의 픽셀 그리기 위해 모든 점에 대해 이 계산 필요 → rendering이 느려짐

  • 4DGS는 표준 상태 (canonical)의 gaussian들이 t에서 어디로 가야 할까를 계산 (Canonical-to-World)
    • 하나의 표준 가우시안 세트 G\mathcal G가 있으면 deformation network가 GG\mathcal G \to \mathcal G'로 직접 변형

    • 그리고 그냥 그대로 splatting하면 됨.

      ☑️ real-time rendering이 가능함.

4D Gaussian Splatting Framework

  • 4D gaussian splatting은 3D gaussian G\mathcal GGaussian deformation field network F\mathcal F로 이루어져 있음.

  • Novel-view rendering은 단순히 deformed gaussian으로 differential splatting 수행하면 가능

    I^=S(M,G),G=ΔG+G\hat{I}=\mathcal S(M,\mathcal G'), \mathcal G'=\Delta \mathcal G +\mathcal G
  • Gaussian의 deformation을 deformation network가 출력

    ΔG=F(G,t)\Delta \mathcal G=\mathcal F(\mathcal G,t)
G={X,s,r,σ,C}\mathcal G'=\{\mathcal X', s',r',\sigma, \mathcal C\}
  • 실제 Deformation Field Network가 어떻게 구현되었는지는 생략

    • Spatial-Temporal Sturcture Encoder
    • Multi-head Gaussian Deformation Decoder
  • 최적화 시에는 3DGS를 활용해서 initialization

Experiments

Limitations

  1. 급격한 움직임이나 배경이 부족한 경우, camera pose가 부정확할 경우 4d gaussian 최적화가 잘 안된다고 함.

  2. Monocular setting의 경우, 카메라가 움직이는건지 물체가 움직이는 건지 구분하기가 어렵기 때문에 별도의 supervision이 없으면 4DGS 학습이 어려움

  3. 이 연구에서는 모든 가우시안 객체가 deformation network를 통과해야하기 때문에 3D gaussian이 엄청 많아지는 scene을 recon하기에는 어려움

profile
공부하고 싶은 사람

0개의 댓글