3DGS 기본 개념

chaenyang·2024년 9월 4일

3D

목록 보기

3/9

: novel-view synthesis of scenes captured with multiple photos or videos
이미지가 camera pose와 함께 주어졌을 때 주어지지 않은 camera pose에 대한 이미지 합성

NeRF와 유사

1D Gaussian

g(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)

1차원 공간, 단일변수 x
σ: 분산
μ: 평균

2D Gaussian & 3D Gaussian

2D Gaussian: 2차원 평면, 두 변수 x,y
3D Gaussian: 2차원 공간, 세 변수 x, y, z

k-Dimension Gaussian의 pdf 수식

(2\pi)^{-k/2} \, \text{det}(\Sigma)^{-1/2} \, \exp \left( -\frac{1}{2} (\mathbf{x} - \mu)^\top \Sigma^{-1} (\mathbf{x} - \mu) \right)

Σ: 공분산(covariance) (2개 차원을 써서 분산이 아닌 공분산)

3D Gaussian

3D Gaussian은 타원체의 형태로, 평균, 분산, 투명도, 색상 값을 갖고 있다.

3D Gaussian을 splatting = 3D 타원들이 scene에 흩뿌려진다.
Geometry를 세세하게 묘사할 수 있도록 Gaussian의 수, 위치, 크기, 회전, 색상값, 투명도를 조절하여 정밀한 Scene을 묘사한다.

NeRF: NN 사용하는 Radiance Field

Radiance는 각 direction(projection 되는 공간)마다 발산되는 빛의 유량을 뜻한다.
눈에 보이는 가시광선을 모델링한다고 할 수 있다.

Radiance field: NN을 쓰지 않고 scene을 구성

Point Cloud는 3차원 공간에 퍼져 있는 여러 point의 집합(set cloud)이다.

Lidar 센서, RGB-D 센서 등으로 수집된다. 이러한 센서들은 물체에 빛/신호를 보내서 돌아오는 시간을 기록하여 각 빛/신호 당 거리 정보를 계산하고, 하나의 포인트(점)을 생성한다.

2D 이미지와 달리 깊이 정보까지 갖고 있어서 z축이 있기 때문에 N×3 Numpy 배열로 표현된다.

잉공지능