앞의 NeRF의 경우에는 학습을 하려면 이미지의 position과 direction이 필요하다는 단점이 있다. 따라서 이 논문에서는 위치와 방향 정보 없이 image synthesis를 하려고 시도하였다. 이를 위해 GAN의 nenerative&adversarial 구조를 사용하였다.
Figure 2
는 GRAF의 대략적인 구조를 설명하는 그림이다. generator인 는 camera matrix , camera pose ξ, 2D sample pattern 와 shape/apperance code 을 입력으로 받아 이미지 패치 를 출력으로 한다. 그후 discriminator는 진짜 이미지 패치 를 이 출력과 비교한다. 여기서 이미지가 아닌 이미지의 패치로 학습하는 이유는 학습량이 너무 많아지기 때문이라고 한다.