4D Gaussian Splatting for Real-Time Dynamic Scene Rendering 리뷰

신희준·2026년 4월 24일

Inverse Graphics

목록 보기

13/15

[4D Gaussian Splatting for Real-Time Dynamic Scene Rendering]([2310.08528] 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering) (Guanjun Wu, Taoran Yi, Jiemin Fang, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Qi Tian, Xinggang Wang / CVPR 2024)

Real-time dynamic scene rendering 연구

Deformation network 활용해서 gaussian splat을 시간별로 deform하고 splat하는 방식

3DGS는 static scene을 가정하기 때문에, dynamic scene에서는 잘 작동하지 않음
→ Real-time dynamic scene rendering을 하고자 함

그리고 이러한 dynamic scene rendering의 training 및 rendering 효율성을 최대화 하고자 함
3DGS preliminary : [3DGS 이전 포스팅 short summary 참고](3D Gaussian Splatting for Real-Time Radiance Field Rendering 리뷰)

먼저 (a)와 같이 deformation field를 학습하여 ray point들을 time마다 다르게 mapping하여 rendering하는 경우가 있고,
$c,\sigma=\text{NeRF}(x+\Delta x,d,\lambda)$

⇒ 이 연구는 deformation field의 철학을 따르나, Dynamic NeRF에서의 deformation과는 조금 다른 방법을 활용

Dynamic NeRF는 현재 시점의 좌표가 과거의 어디였을까를 계산 (World-to-Canonical)
- t 에서 ray를 쏘고 point sample하면, deformation network가 이 점들을 각각 canonical space로 역매핑 ( $x \to x + \Delta x$ )
  
  ☑️ 하나의 픽셀 그리기 위해 모든 점에 대해 이 계산 필요 → rendering이 느려짐

4DGS는 표준 상태 (canonical)의 gaussian들이 t에서 어디로 가야 할까를 계산 (Canonical-to-World)
- 하나의 표준 가우시안 세트 $\mathcal G$ 가 있으면 deformation network가 $\mathcal G \to \mathcal G'$ 로 직접 변형
- 그리고 그냥 그대로 splatting하면 됨.
  
  ☑️ real-time rendering이 가능함.

4D gaussian splatting은 3D gaussian $\mathcal G$ 와 Gaussian deformation field network $\mathcal F$ 로 이루어져 있음.
Novel-view rendering은 단순히 deformed gaussian으로 differential splatting 수행하면 가능
$\hat{I}=\mathcal S(M,\mathcal G'), \mathcal G'=\Delta \mathcal G +\mathcal G$
Gaussian의 deformation을 deformation network가 출력
$\Delta \mathcal G=\mathcal F(\mathcal G,t)$

\mathcal G'=\{\mathcal X', s',r',\sigma, \mathcal C\}

실제 Deformation Field Network가 어떻게 구현되었는지는 생략
- Spatial-Temporal Sturcture Encoder
- Multi-head Gaussian Deformation Decoder
최적화 시에는 3DGS를 활용해서 initialization

급격한 움직임이나 배경이 부족한 경우, camera pose가 부정확할 경우 4d gaussian 최적화가 잘 안된다고 함.
Monocular setting의 경우, 카메라가 움직이는건지 물체가 움직이는 건지 구분하기가 어렵기 때문에 별도의 supervision이 없으면 4DGS 학습이 어려움
이 연구에서는 모든 가우시안 객체가 deformation network를 통과해야하기 때문에 3D gaussian이 엄청 많아지는 scene을 recon하기에는 어려움

공부하고 싶은 사람