

NeRF는 Multi-view image와 해당 카메라의 방향 및 공간 좌표 정보만으로 3D 장면을 암묵적으로 표현하는 방식이다.
실제 데이터가 3D mesh data가 아니고 기하적 구조를 띄우지 않지만 MLP의 가중치에 내제되어 있다는 점에서 '암묵적'이란 표현을 쓴다

inpainting 3D scene은 장면에서 보이는 임의의 object를 제거하고 누락된 pixel를 예측하여 복원해주는 기술이다.
(NeRF를 이용하여 2D 이미지를 3D로 변환한 결과물)

저자는 단일 시점에서 최소한의 annotation만으로도 여러 시점에서 일관된 3D-segmentation mask를 얻을 수 있다고 주장한다.

전문가가 object에 대한 annotation를 지정하면 알아서 Segmentation mask를 만들어주는 것을 interactive segmentation라고 한다.
Positive click : 관심 object에 해당된 point
Negative click : 관심 object가 아닌 point
mask를 semantic NeRF에 fitting하여 여러 시점에서도 일관된 semantic segmentaiton mask을 3D로 랜더링한다.
multi-view image set에 pre-trained 2D inpainter를 적용하여 2D inpainting image를 생성한다.
customized NeRF fitting process

두 가지 요소를 perceptual loss(지각 손실)을 통해 3D inpainting scene을 재구성한다.
