3D Gaussian Splatting

FSA·2024년 6월 21일

vision

목록 보기

14/25

1. 들어가기 전에: GPT answer

Gaussian Splatting은 3D 장면을 2D 이미지로 렌더링할 때 사용
- 이 기법은 각 3D 포인트를 2D 이미지 평면에 가우시안 분포로 변환하여 표현하는 방식
이를 통해 부드럽고 자연스러운 이미지를 생성할 수 있음

1.2. 기본 개념

3D 포인트의 표현:
- Gaussian Splatting에서는 3D 공간의 각 포인트를 가우시안 분포(Gaussian Distribution)로 표현
- 3D 장면에서 각 포인트는 위치, 색상, 가우시안 분포의 크기와 형태를 정의하는 파라미터(예: 평균, 분산)로 구성
- 이는 포인트를 단일 픽셀로 표현하는 대신, 분포로 나타내어 부드럽고 연속적인 표현을 가능하게
스플랫(Splat):
- "스플랫"은 분포를 이미지 평면에 투영하는 과정을 의미
- 즉, 3D 포인트의 가우시안 분포를 2D 이미지 평면에 뿌려서(splatting) 나타내는 것
- 이 과정에서 분포들이 중첩될 수 있으며, 중첩된 부분은 합성되어 최종 이미지가 생성됩니다.
렌더링:
- 투영된 가우시안 분포들을 합성하여 최종 이미지를 렌더링합니다. 이 과정에서 부드러운 블렌딩과 안티앨리어싱 효과가 자연스럽게 적용됩니다.

2. 들어가기 전에: Nerf

NeRF(Neural Radiance Fields)는 3D 신(scene)을 복원하고 렌더링하기 위한 최신 딥러닝 기술
NeRF는 신경망을 사용하여 복잡한 3D 장면의 고해상도 렌더링을 생성할 수 있으며, 특히 사진처럼 사실적인 이미지를 생성하는 데 뛰어납니다.

2.1. 기본 개념

1. 신경망 기반 3D 표현:
- NeRF는 신경망(딥러닝 모델)을 사용하여
  - input: 다수의 2D 이미지 (각 이미지에는 카메라 위치와 방향 정보가 포함)
  - 과정
    - 볼륨 샘플링:
      - 3D 공간 내의 특정 위치와 방향에 대해 샘플링을 수행
      - 예를 들어, 광선이 장면을 통과할 때의 여러 지점을 샘플링
      - 각 샘플링 지점에서 신경망을 통해 색상과 밀도를 예측
  - output: 3D 공간의 "특정 위치와 방향에 대한 빛의" 방사율(radiance, 밀도)과 색상(color)을 표현
  - 방사율(radiance)
    - 특정 방향에서 단위 면적 당 단위 입체각으로 방출되거나 반사되는 빛의 양을 의미
    - 방사율은 3D 장면에서 빛의 분포와 강도를 설명하는 데 사용되며, 물체 표면에서 관찰되는 밝기와 색상을 결정하는 데 중요한 역할
1. 볼륨 렌더링(Volume Rendering)을 통한 합성 이미지 생성:
- 샘플링된 데이터를 사용하여 합성 이미지를 생성
  - 이 과정은 볼륨 렌더링 방정식을 사용하여 수행
- 각 광선의 경로를 따라 샘플링된 지점들의 색상과 밀도를 조합하여 최종 이미지를 생성
- NeRF는 3D 장면을 볼륨 렌더링 기법을 사용하여 표현
  - 이는 장면의 각 지점에서 빛이 어떻게 방출되고 흡수되는지를 모델링

2.2. 예시

예를 들어, 한 방의 여러 각도에서 찍은 사진들을 입력으로 받아, NeRF는 신경망을 통해 이 방의 3D 모델을 학습
이후, NeRF는 이 3D 모델을 기반으로 새로운 각도에서 본 방의 이미지를 생성할 수 있음
이 과정에서 실제 사진처럼 사실적인 이미지가 생성

3. Gaussian Splatting

3D 장면을 2D 이미지로 렌더링할 때 사용

3.1. 3d gaussian

각 점의 위치에 대한 확률 분포 PDF
Gaussian Splatting
- 각 포인트를 3D Gaussian으로 변환하여, 각 포인트가 중심이 되는 가우시안 분포를 가지게 합니다.
- 이렇게 하면, 각 포인트가 단일한 점이 아닌, 그 주위의 공간에 걸쳐 부드럽게 분포된 형태로 표현됩니다.

3.2. 3D 모델을 표현하는 방법들

3.2.1. discrete scene

가장 일반적인 방법은 Mesh와 Point입니다.
GPU/CUDA기반의 rasterization(=3D를 2D 이미지화)에 최적화 되어 있습니다.

3.2.2. continuous scene

최근 Neural Radiance Fields (NeRF) 기법들은 3D 장면(Scene)을 최적화하기 좋은 연속적인 방식으로 표현하고 있습니다.
NeRF의 접근 방식과 그로 인해 발생하는 문제를 이해하기 쉽게 설명해 보겠습니다.

3.2.2.1. NeRF의 기법

1. 연속적인 장면 표현 (Continuous Scene Representation):
- 기존 방법: 메쉬(Mesh)나 포인트 클라우드(Point Cloud)와 같은 전통적인 3D 모델 표현 방식은 이산적(discrete)인 데이터를 사용합니다.
- NeRF:
  - NeRF는 장면을 신경망(Neural Network)을 사용하여 연속적인 함수로 표현
  - 이 함수는 3D 공간의 어떤 점에서도 해당 점의 색상과 밀도를 예측할 수 있습니다.
  - 결과적으로, NeRF는 장면을 연속적인(continuous) 데이터로 다룹니다.
1. 장면 최적화:
- NeRF는 다양한 각도에서 촬영된 2D 이미지를 사용하여 장면의 3D 표현을 학습
- 학습 과정에서, 신경망은 주어진 3D 좌표와 방향에 대해 색상과 밀도를 출력하도록 최적화됨

3.2.3. 3D gaussian

이 논문에서 제안하는 3D 모델을 표현하는 방법

3.3. 여러 3D 모델 -> rasterization

3.3.1. rasterization이란?

래스터라이제이션(Rasterization)은 3D 모델을 2D 이미지로 변환하는 과정
- 주로 GPU를 사용하여 효율적으로 수행
래스터라이제이션 과정은 다음 단계로 구성됩니다:
- 1. 모델 변환: 3D 모델의 정점을 여러 좌표계로 변환합니다.
- 1. 클리핑: 가시 영역 밖의 정점을 제거합니다.
- 1. 뷰포트 변환: 정규화된 좌표를 실제 화면의 픽셀 좌표로 변환
- 1. 래스터화: 3D 모델의 삼각형을 화면의 픽셀 그리드에 맞게 분할
- 1. 프래그먼트 처리: 각 픽셀의 최종 색상과 속성을 계산
- 1. 출력: 최종 이미지를 화면에 렌더링

3.3.1.1. 모델 변환 (Model Transformation)

3D 모델의 각 점(정점, vertices)을 월드 좌표계에서 화면 좌표계로 변환하는 과정
각 정점의 위치는 여러 변환 행렬을 거치며 변환됩니다:
모델 변환 (Model Transformation):
- 로컬 좌표계를 월드 좌표계로 변환합니다.
뷰 변환 (View Transformation):
- 월드 좌표계를 뷰 좌표계(카메라의 위치와 방향을 기준으로 한 좌표계)로 변환합니다.
투영 변환 (Projection Transformation):
- 뷰 좌표계를 클립 좌표계(화면의 가시 범위 내로 정규화된 좌표계)로 변환합니다.
- 이때 원근 투영(Perspective Projection) 또는 정투영(Orthographic Projection)을 사용할 수 있습니다.

3.3.1.2. 클리핑 (Clipping)

가시 부피(프러스텀, Frustum) 밖에 있는 정점을 제거하는 과정

3.3.1.3. 과정

클립 좌표계에서, 화면의 가시 영역(near, far, left, right, top, bottom)에 속하지 않는 정점들을 제거
클리핑은 각 삼각형의 정점에 대해 수행되며, 필요한 경우 삼각형을 나누어 가시 영역에 맞게 조정

3.3.1.3. 뷰포트 변환 (Viewport Transformation)

클립 좌표계의 정규화된 장치 좌표(Normalized Device Coordinates, NDC)를 실제 화면의 픽셀 좌표로 변환하는 과정
과정
- NDC는 -1에서 1 사이의 값으로 표현됩니다.
- 뷰포트 변환은 이 정규화된 좌표를 실제 화면의 해상도에 맞게 변환하여, 최종적으로 픽셀 단위의 화면 좌표를 생성

3.3.1.4. 래스터화 (Rasterization)

3D 모델의 정점을 화면의 각 픽셀에 대응시키는 과정
과정
- 각 삼각형을 화면의 픽셀 그리드에 맞게 분할
- 삼각형 내부의 각 픽셀에 대해 색상, 깊이 등의 값을 계산

3.3.1.5. 프래그먼트 처리 (Fragment Processing)

각 픽셀에 대해 최종 색상과 기타 속성을 계산하는 과정

과정

프래그먼트 셰이더(Fragment Shader): 각 픽셀에 대한 색상, 텍스처, 라이팅 효과 등을 계산하는 프로그램
깊이 테스트(Depth Test): 각 프래그먼트의 깊이를 비교하여, 가장 가까운 프래그먼트만 화면에 표시합니다. 이는 Z-버퍼(Z-buffer)를 사용하여 수행
블렌딩(Blending):
- 투명한 객체가 있는 경우, 여러 프래그먼트의 색상을 혼합하여 최종 색상을 결정

알파 블렌딩

픽셀의 투명도(Transparency)를 처리하는 기술
이 기법은 주로 여러 레이어의 이미지를 합성하거나, 투명한 객체를 렌더링할 때 사용
알파 블렌딩은 각 픽셀의 색상과 알파 값(Alpha Value)을 사용하여 최종 색상을 계산
알파 값:
- 각 픽셀의 투명도를 나타내는 값
- 보통 0에서 1 사이의 범위를 가지며, 0은 완전히 투명함을, 1은 완전히 불투명함을 의미
- 예:
  - RGBA (Red, Green, Blue, Alpha) 색상 모델에서,
  - 알파 값: 픽셀의 투명도를 정의
알파 블렌딩은 두 픽셀을 합성할 때 사용
- 이때 두 픽셀은 전경(Foreground) 픽셀과 배경(Background) 픽셀로 나뉘며,
- 각 픽셀의 색상과 알파 값을 사용하여 최종 색상을 계산

전경 및 배경 픽셀의 색상 및 알파 값 가져오기:

전경 픽셀: 렌더링 중인 객체의 픽셀 색상과 알파 값
배경 픽셀: 이미 화면에 렌더링된 픽셀의 색상과 알파 값
활용 사례

투명한 객체 렌더링:
- 유리, 물, 안경 등 투명한 객체를 사실적으로 렌더링하기 위해 알파 블렌딩을 사용
레이어 합성:
- 여러 레이어의 이미지를 하나로 합성할 때, 각 레이어의 투명도를 고려하여 자연스러운 이미지를 생성
반투명 효과:
- UI 요소나 게임 그래픽에서 반투명 효과를 사용하여, 배경을 살짝 보이게 하면서 전경 요소를 강조

알파 블렌딩은 이러한 다양한 그래픽 효과를 가능하게 하며, 이를 통해 현실감 있고 복잡한 장면을 효과적으로 렌더링할 수 있음

3.3.1.6. 출력 (Output)

최종적으로 각 픽셀에 대해 계산된 색상을 화면에 렌더링하는 과정
모든 프래그먼트 처리가 완료된 후, 각 픽셀의 최종 색상이 프레임 버퍼(Frame Buffer)에 저장
프레임 버퍼의 내용이 화면에 표시되어 최종 이미지를 생성

3.3.2. continuous scene 에 대한 rasterization

1. 확률적 샘플링:
- 기존 방법:
  - 전통적인 메쉬나 포인트 클라우드에서는 명확한 지점들이 있기 때문에, 해당 지점들을 기반으로 이미지를 렌더링
- NeRF:
  - NeRF는 연속적인 함수로 장면을 표현하기 때문에, 3D 공간의 많은 지점을 샘플링하여 이 샘플들을 기반으로 이미지를 생성
  - 이 샘플링 과정이 확률적(stochastic)으로 이루어지기 때문에, 매번 약간씩 다른 지점들이 샘플링될 수 있음
1. 연산량 증가:
- 확률적 샘플링은 많은 지점을 샘플링하고 각 지점에 대해 신경망을 통과시키는 많은 연산이 필요
- 예를 들어, 한 장의 이미지를 렌더링할 때 수천에서 수백만 개의 샘플을 처리해야 힘

노이즈 형성:

확률적 샘플링의 특성상, 샘플링 과정에서 일정한 노이즈가 발생할 수 있습니다.
- 이는 최종 렌더링된 이미지에 불규칙한 잡음처럼 나타날 수 있습니다.
샘플링 지점들이 랜덤하게 선택되므로, 동일한 장면을 여러 번 렌더링할 때 각 렌더링 결과가 조금씩 다를 수 있습니다. 이는 특히 조명이나 색상에서 미세한 차이로 나타날 수 있습니다.

3.4. 3D gaussian 으로 3d 모델을 표현하는 이유

3.4.1. 3D Gaussian 방법의 소개

논문에서는 3D 모델을 표현하기 위해, 3D Gaussian이라는 새로운 표현 방법을 제시

미분가능한 볼륨 표현 (Differentiable Volumetric Representation):

3D Gaussian은 연속적인 함수로 표현되며, 이 함수는 미분가능하다는 특징
이는 최적화 과정에서 유리
즉, 기계 학습이나 신경망 훈련 시, 그래디언트(Gradient)를 계산하여 모델을 학습할 수 있다는 의미

명시적 표현 (Explicit Representation):

3D Gaussian은 3d model을 명시적으로 표현할 수 있음
이는 신경망을 통해 간접적으로 표현하는 방식과 대비
- NeRF와 같은 기법은 신경망 내부의 복잡한 구조에 의해 암묵적으로 표현(Implicit Representation).
반면, 3D Gaussian은 직접적으로 데이터 구조를 통해 표현

효율적인 2D 투영과 알파 블렌딩 (Efficient 2D Projection and Alpha Blending):

3D Gaussian 방법은 2D 이미지로 투영하고, 알파 블렌딩(투명도 계산)을 효율적으로 수행할 수 있습니다.
이는 기존 래스터라이제이션 과정의 일부 단계로, 빠른 렌더링을 가능하게 합니다.

3.4.2. 기존 NeRF와 3D Gaussian Splatting의 비교

아래 과정들은, 3d 데이터들을 -> 2d image로 투사하는 과정을 설명하는 것 같다.

3.4.2.1. 기존 NeRF 방식

레이 투사 (Ray Casting):

각 이미지의 픽셀마다 광선(ray)을 투사
즉, 화면의 각 픽셀에서 광선을 쏘아 3D 공간의 여러 점을 샘플링

샘플링된 점의 색상과 밀도 계산:

각 샘플링된 점에서 색상(color)과 볼륨 밀도(volume density)를 계산
이 계산은 신경망을 통해 이루어짐

합산하여 이미지 렌더링:

광선 위의 모든 샘플링된 점들의 색상과 밀도를 합산하여 최종 이미지를 렌더링
이 과정은 많은 연산을 필요로 합니다.

3.4.2.2. 3D Gaussian Splatting 방식

타일 분할:
- 이미지를 14x14 픽셀로 구성된 작은 타일(Tile)로 나눕니다.
- 이렇게 하면 전체 이미지를 작은 구역으로 나누어 처리할 수 있습니다.
깊이 순서로 정렬:
- 각 타일 내의 3D Gaussian들을 깊이(Depth) 순서로 정렬
- 이는 가장 앞에 있는 객체부터 뒤에 있는 객체 순으로 정렬하는 것
알파 블렌딩:
- 정렬된 순서에 따라, 앞에서부터 뒤로 순차적으로 알파 블렌딩을 수행하여 이미지를 렌더링
- 알파 블렌딩은 각 객체의 투명도를 고려하여 색상을 합산하는 과정

3.4.3. 효율성 비교

기존 NeRF 방식:
- 각 픽셀마다 많은 점을 샘플링하고, 각 점에 대해 복잡한 계산을 수행해야 하므로 연산량이 많음
3D Gaussian Splatting 방식:
- 타일로 분할하고, 각 타일 내에서 Gaussian을 정렬하여 알파 블렌딩을 수행하므로, 필요한 연산량이 상대적으로 적음

3.4.4. 요약

3D Gaussian 방법:
- 미분가능하고 명시적으로 표현되며,
- 효율적인 2D 투영과 알파 블렌딩을 통해 빠른 렌더링이 가능
기존 NeRF:
- 각 픽셀마다 많은 샘플링과 계산이 필요하여 연산량이 많고, 노이즈가 발생할 수 있음
3D Gaussian Splatting:
- 타일로 나누어 처리하고,
- 알파 블렌딩을 통해 효율적으로 렌더링하여 연산량이 적고,
- 빠르게 이미지를 생성할 수 있음

FSA

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

이전 포스트

DUSt3R: Geometric 3D Vision Made Easy

다음 포스트

3D Gaussian Splatting

vision

1. 들어가기 전에: GPT answer

1.2. 기본 개념

2. 들어가기 전에: Nerf

2.1. 기본 개념

2.2. 예시

3. Gaussian Splatting

3.1. 3d gaussian

3.2. 3D 모델을 표현하는 방법들

3.2.1. discrete scene

3.2.2. continuous scene

3.2.2.1. NeRF의 기법

3.2.3. 3D gaussian

3.3. 여러 3D 모델 -> rasterization

3.3.1. rasterization이란?

3.3.1.1. 모델 변환 (Model Transformation)

3.3.1.2. 클리핑 (Clipping)

3.3.1.3. 과정

3.3.1.3. 뷰포트 변환 (Viewport Transformation)

3.3.1.4. 래스터화 (Rasterization)

3.3.1.5. 프래그먼트 처리 (Fragment Processing)

과정

알파 블렌딩

3.3.1.6. 출력 (Output)

3.3.2. continuous scene 에 대한 rasterization

3.4. 3D gaussian 으로 3d 모델을 표현하는 이유

3.4.1. 3D Gaussian 방법의 소개

3.4.2. 기존 NeRF와 3D Gaussian Splatting의 비교

3.4.2.1. 기존 NeRF 방식

3.4.2.2. 3D Gaussian Splatting 방식

3.4.3. 효율성 비교

3.4.4. 요약

DUSt3R: Geometric 3D Vision Made Easy

[240627] 3D Gaussian Splatting

0개의 댓글

관련 채용 정보