Single RGB 이미지로부터 3D plane reconstruction을 하는 것은 매우 어려운 문제로 많은 prior가 필요하며 texture가 부족한 부분을 추출하기 위해 global 정보를 활용해야 한다는 challenge가 있다.CNN을 활용한 PlaneNe
Scene understanding은 AR/VR, robot navigation 등 여러 분야에 유용하지만 scanned 3D data는 incomplete하기 때문에 scene을 정확하게 이해하는데 어려움이 있다.사람은 scene에 대해 이해할 때 visual per
3D reconstruction은 occlusion이나 센서의 영향으로 불완전하기 때문에 application에 어려움이 있다.\-> RGB-D scan, objects with CAD model을 받아 그래프를 활용하여 scene을 CAD 모델로 나타낸다.Encode
생성 모델의 유용성으로 text로부터 이미지를 생성하는 모델들이 나왔으나 sentence에 많은 object가 존재할 때는 생성에 어려움이 있었다.선형 구조의 sentence를 위 그림과 같이 objects와 relationships로 표현하는 scene grah로 나
(b) Object node extraction(c) Relationship edge pruning(d) Graph context integration$I:$ image$V:$ 이미지 내의 object 노드 집합$E \\in {V \\choose 2 }:$ object
Room layout을 $y_w, y_c, y_f$에 대한 1D representation으로 나타낸다.$y_f$: 벽과 floor 사이의 boundary에 대한 좌표$y_c$: 벽과 ceiling 사이의 boundary에 대한 좌표$y_w$: 벽과 벽 사이의 boud
Charuco board detection을 통해 모든 카메라의 intrinsic parameter initializationN-point technique을 통해 관측되는 board에 대한 camera pose에 대해 추정Single image에서 보이는 board
3D scene에서 location query가 주어졌을 때 적절한 객체의 type에 대한 예측을 하는 taskShape과 context에 대한 정보를 message passing하여 objec type에 대한 확률분포를 추정각 노드에는 category, positio
Introduction 일반적인 카메라의 FoV(Field of View)는 60도이기 때문에 context 정보의 활용이 제한적이다. 본 논문에서는 360도 파노라마를 활용하여 obejects' shapes, 3D poses, semantic category, ro
Depth sensor의 이용, real-time dense SLAM 알고리즘의 발달 등과 함께 3D scene reconstruction은 geometric 정보뿐만 아니라 semantic 정보의 복원까지 그 중요성이 부각되었다.그동안의 연구들은 완전한 3D scan
NeRF와 같은 모델에서 input을 higher-dimensional space로 보내 compact한 모델로부터 high approximation quality를 추출할 수 있음이 증명되었으나 task specific하며 GPU performance를 제한시킨다.\
single-image scene synthesis에서의 key challenge는large view change를 extrapolation을 통해 잘 나타내는 것여러 view에서의 output이 consistency를 가지는 것3D-awareness(depth에 따라
GAN에서 Discriminator는 Generator가 만든 이미지가 실제 이미지의 prototype과 유사한지 평가하는 역할을 한다. 하지만 Single prototype은 mode collapsing 문제가 있고 이를 해결하고자 multiple discrimina
Geometric variation(기하학적 변형)에 대한 인식을 잘 하기 위해 data augmentation을 활용하거나 SIFT와 같은 transformation-invariant 알고리즘을 활용할 수 있으나 한계가 있다.\-> offset을 학습하여 flexib
본 연구에서는 cascade기반의 decoder 대신 Continuous Alignment Module(CAM)과 Continuous Refinement Model(CRM)을 사용해 연산량을 줄이고 디테일을 살린다.CAM에서는 feature와 refinement tar
3D point $(x,y,z)$와 viewing directions $(\\theta, \\phi)$로 구성된 5D input을 통해 single volume density와 view-dependent RGB를 output으로 추출하는 view synthesis를 수
Representation을 학습하는데 있어 $l2$ norm을 통해 feature의 영역을 unit hypershpere으로 제한하는 것은 학습 안정성을 높이고 클래스를 적절히 분류하여 선형 분리가 가능하도록 만든다. $l2$ norm은 보편적인 방법이지만 encod
딥러닝을 활용한 image completion method로 인해 그림에 전문성이 없는 사람들도 쉽게 이미지를 편집하는 것이 가능해졌다.가장 전형적인 방식은 square mask를 이용하는 것으로 encoder-decoder를 복원하는 생성자와 이를 실제 이미지인지 아
본 논문에서는 semantic segmentation mask를 사진처럼 변환해주는 조건부 이미지 합성 방식을 제안한다.기존에도 이와 같은 연구는 있었으나 semantic mask에 대해 "wash away" 현상이 나타난다는 문제점이 있었다.따라서, spatially
image SSD는 base network로 VGG16을 이용하였다. VGG16에는 FC레이어가 6,7,8로 세 개가 있는데 SDD에서는 6,7은 컨볼루션 레이어로 대체하였고 뒤에 보조적인 구조를 덧붙여 구성하였다. 추가된 레이어를 살펴보면 p개의 채널을 가진 m x