Efficient Geometry-aware 3D Generative Adversarial Networks 논문 리뷰 (EG3D)

SoyE·2024년 1월 16일
0

Abstract

single-view 2D 이미지만을 사용하여 high-quality의 multi-view-consistent한 이미지와 3d shape을 생성하는 일은 long-standing challenge였다. 왜냐하면 기존의 3D GAN은 quality나 resolution 그리고 multi-view consistency, compute-efficient 측면에서 한계를 지녔다.
따라서 본 논문에서 computational efficiency와 image quality를 개선하는 3D GAN을 제안한다. expressive hybrid explicit-implicit network architecture를 도입함으로써 high resolution multi-view-consistent images를 실시간으로 합성할 뿐만이 아니라 high-quality의 3D geometry를 생산한다. feature generation과 neural rendering을 분리함으로써 StyleGAN2와 같은 2D CNN 생성기를 활용하여 효율성과 표현력을 이용할 수 있다.

Introduction

3D-aware GAN에 대한 최근 연구는 multi-view-consistent 문제를 다루기 시작했지만 여전히 3D reconstruction quality는 부족한 점이 많다. 주요 원인 중 하나는 3D generators와 neural rendering architecture의 computational inefficiency 때문이다.
따라서 single view 이미지들로부터 unsupervised 3D representation learning을 위한 새로운 generator architecture를 도입한다. 이 architecture는 neural rendering에 충실한 채 computational efficiency of rendering을 향상시킨다.
이것을 두가지의 방법으로 달성하는데 첫 번째는 hybrid explicit–implicit 3D representation을 통해 3D rendering의 computational efficiency를 향상시킨다. 이전 방법은 계산 제약 때문에 이 방법을 통해 rendering resolutions and quality에 제한이 생기고 image-space convolutional upsampling에 과도한 의존이 있었지만 hybrid explicit–implicit 3D representation을 통해 이를 해결할 수 있다.
두 번째로는 dual discrimination 전략을 도입함으로써 view-inconsistent를 규제하기 위해 neural rendering과 final output 사이의 consistency를 유지한다.

Moreover, we introduce pose-based conditioning to our generator, which decouples pose-correlated attributes (e.g., facial expressions) for a multi-view consistent output during inference while faithfully modeling the joint distributions of pose-correlated attributes inherent in the training data.

또한 neural rendering으로 부터 feature generation을 분해한다. 이는 SOTA 2D-CNN generator를 이용 가능하게 하여 3D multi-view-consistent neural volume rendering의 이점을 가진 채 3D 장면의 일반화를 가능하게 한다.

본 논문의 contribution을 정리하면,

  • tri-plane-based 3D GAN framework를 도입함으로써 효율적으로 highresolution geometry-aware image synthesis가 가능하다.
  • dual discrimination을 통해 multi-view consistency를 촉진하고 pose-correlated attribute을 잘 modeling하는 generator pose conditioning을 통해 3D GAN training strategy을 개발했다.
  • unconditional 3D-aware image synthesis에 대해 state-of-the-art results를 보여준다.

(a)는 느리고 (b)는 빠르지만 resolution이 빈약하고 (c)는 속도, 품질 측면에서 가장 효과적이다.

Neural scene representation and rendering

new hybrid explicit–implicit 3Daware network that uses a memory-efficient tri-plane representation to explicitly store features on axis-aligned planes that are aggregated by a lightweight implicit feature decoder for efficient volume rendering.

Generative 3D-aware image synthesis

One of the primary insights of our work is that an efficient 3D GAN architecture with 3D-grounded inductive biases is crucial for successfully generating high-resolution view-consistent images and high-quality 3D shapes.
Our framework achieves this in several ways. First, unlike most existing 3D GANs, we directly leverage a 2D CNN-based feature generator, i.e., StyleGAN2, removing the need for inefficient 3D convolutions on explicit voxel grids. Second, our tri-plane representation allows us to leverage neural volume rendering as an inductive bias, but in a much more computationally efficient way than fully implicit 3D networks.
we also employ 2D CNN-based upsampling after neural rendering, but our method introduces dual discrimination to avoid view inconsistencies introduced by the upsampling layers.

Tri-plane hybrid 3D representation

We query any 3D position x ∈ R3 by projecting it onto each of the three feature planes, retrieving the corresponding feature vector (Fxy, Fxz, Fyz) via bilinear interpolation, and aggregating the three feature vectors via summation. An additional lightweight decoder network, implemented as a small MLP, interprets the aggregated 3D features F as color and density. These quantities are rendered into RGB images using (neural) volume rendering. The primary advantage of this hybrid representation is efficiency by keeping the decoder small and shifting the bulk of the expressive power into the explicit features, we reduce the computational cost of neural rendering compared to fully implicit MLP architectures without losing expressiveness.
our tri-plane representation has one other key advantage over these alternatives: the feature planes can be generated with an off-the-shelf 2D CNN-based generator, enabling generalization across 3D representations using the GAN framework discussed next.
tri-plane을 통해 효율적으로 efficiently volume rendering으로 이미지를 rendering한다.

Method

We associate each training image with a set of camera intrinsics and extrinsics using off-the-shelf pose detectors.

random latent code와 camera params가 mapping network에 주어지면 disentanglement한 intermediate latent code가 생성된 후 StyleGAN2 generator를 통해 각 32개의 채널을 포함하는 tri-plane을 생성한다.

다음 임의의 3D 위치 x ∈ R3의 feature를 sampling하고 3개의 특징 평면 각각에 projection 한다음, bilinear interpolation을 통해 해당 특징 벡터(Fxy, Fxz, Fyz)를 찾고, 합산을 통해 3개의 특징 벡터를 집계한다. 그런 다음 neural renderer에서 tri-plane decoder가 summation된 특징 벡터를 통해 color(32-channel feature)와 density를 예측하고 camera params가 주어지면 volume rendering을 통해 32-channel feature image를 생성한다.(신경 볼륨 렌더러에 의해 처리되어 3D 특징 볼륨을 2D 특징 이미지로 투영, with 96 total depth samples per ray) 여기서 RGB image 아닌 32-channel feature image를 생성하는 이유는 32-channel feature image가 이미지 공간 개선에 효과적으로 활용될 수 있는 더 많은 정보를 포함하기 때문이다.

(Although the tri-plane representation is significantly more computationally efficient than previous approaches, it is still too slow to natively train or render at high resolutions while maintaining interactive framerates.)
이어서 super-resolution module을 통해 볼륨 렌더링된 이미지를 업샘플링하고 개선한다.

training시 multi-view inconsistency를 해결하기 위해 dual discriminator를 사용한다.
첫 번째 discriminator는 first three feature channels of a neurally rendered feature image를 low-resolution RGB image로 해석한다. 그런 다음 low-resolution RGB image와 super-resolved image 사이의 consistency를 보장하기 위해 low-resolution RGB image를 super-resolved image와 동일한 해상도로 bilinearly upsampling한 다음 채널별로 concat한다. The real images fed into the discriminator are also processed by concatenating each of them with an appropriately blurred copy of itself. We discriminate over these sixchannel images instead of the three-channel images traditionally seen in GAN discriminators. 이를 통해 (Dual discrimination not only encourages the final output to match the distribution of real images, but also offers additional effects: it encourages the neural rendering to match the distribution of downsampled real images; and it encourages the super-resolved images to be consistent with the neural rendering.)
두 번째 discriminator는 렌더링된 생성된 이미지의 카메라 포즈를 discriminator가 인식하도록 한다. camera param을 conditioning label로 discriminator에 전달한다. 이를 통해 generator가 3D priors에 대해 올바르게 학습하도록 한다.

포즈와 다른 속성(ex 표정)간의 상관관계를 모델링하고 해체하기 위해 generator pose conditioning을 도입한다. 이를 위해 mapping network에 latent code vector z 뿐만 아니라 camera parameters P를 input으로 넣는다. backbone에 camera pose 정보를 줌으로써 target view가 scene synthesis에 영향을 미칠 수 있도록 한다. 훈련 중 pose conditioning은 generator가 데이터 세트에 내포된 포즈 의존 편향을 모델링하여 모델이 데이터 세트의 이미지 분포를 충실하게 재현할 수 있도록 한다.
(We noticed that always conditioning the generator with the rendering camera pose can lead to degenerate solutions where the GAN produces 2D billboards angled towards the camera (see supplement). To prevent this we randomly swap the conditioning pose in P with another random pose with 50% probability during training.)

profile
응애

0개의 댓글