FC layer에서 고정된 크기의 이미지가 필요한데 crop, warp 과정에서 손실이 있음\-> Spatial Pyramid Pooling을 통해 피쳐맵들을 동일한 크기로 조절R-CNN에서는이미지마다 selective search를 통해 2000개의 ROI를 생성하여
R-CNN은 모든 ROI에 대해 CNN을 수행하여 속도가 느리다는 단점SPPNet은 전체 이미지를 CNN에 통과시켜 feature map을 얻은 후 ROI별로 Max pooling을 거치는 방식을 통해 속도를 개선하였지만 여전히 여러 단계를 거친다는 한계점"->CNN,
Contribution Fast R-CNN에서 모든 과정을 통합시켰지만 여전히Selective search 알고리즘은 외부에서 연산하므로 ROI 생성단계에서 병목현상이 발생 -> Region Proposal도 네트워크 내에서 수행할 수 있는 모델 개발 Model
Geometric variation(기하학적 변형)에 대한 인식을 잘 하기 위해 data augmentation을 활용하거나 SIFT와 같은 transformation-invariant 알고리즘을 활용할 수 있으나 한계가 있다.\-> offset을 학습하여 flexib
GAN에서 Discriminator는 Generator가 만든 이미지가 실제 이미지의 prototype과 유사한지 평가하는 역할을 한다. 하지만 Single prototype은 mode collapsing 문제가 있고 이를 해결하고자 multiple discrimina
single-image scene synthesis에서의 key challenge는large view change를 extrapolation을 통해 잘 나타내는 것여러 view에서의 output이 consistency를 가지는 것3D-awareness(depth에 따라
NeRF와 같은 모델에서 input을 higher-dimensional space로 보내 compact한 모델로부터 high approximation quality를 추출할 수 있음이 증명되었으나 task specific하며 GPU performance를 제한시킨다.\
3D scene에서 location query가 주어졌을 때 적절한 객체의 type에 대한 예측을 하는 taskShape과 context에 대한 정보를 message passing하여 objec type에 대한 확률분포를 추정각 노드에는 category, positio
Room layout을 $y_w, y_c, y_f$에 대한 1D representation으로 나타낸다.$y_f$: 벽과 floor 사이의 boundary에 대한 좌표$y_c$: 벽과 ceiling 사이의 boundary에 대한 좌표$y_w$: 벽과 벽 사이의 boud
(b) Object node extraction(c) Relationship edge pruning(d) Graph context integration$I:$ image$V:$ 이미지 내의 object 노드 집합$E \\in {V \\choose 2 }:$ object
3D reconstruction은 occlusion이나 센서의 영향으로 불완전하기 때문에 application에 어려움이 있다.\-> RGB-D scan, objects with CAD model을 받아 그래프를 활용하여 scene을 CAD 모델로 나타낸다.Encode
ERP에서는 왜곡이 심하기 때문에 구면에서의 tangent 이미지를 활용하는 방법이 "Tangent images for mitigating spherical distortion"에서 소개되었다.Face의 개수는 level에 따라 달라지며 level이 너무 낮을 경우 왜
Single RGB 이미지로부터 3D plane reconstruction을 하는 것은 매우 어려운 문제로 많은 prior가 필요하며 texture가 부족한 부분을 추출하기 위해 global 정보를 활용해야 한다는 challenge가 있다.CNN을 활용한 PlaneNe
HorizonNet과 같은 기존의 Layout estimation 모델들은 2D Panorama 상에서의 좌표로 loss를 정의하지만 2D 상에서 동일한 오차가 서로 다른 depth value를 가지게 된다.\-> "horizon depth를 활용하자"벽과 floor/
기존의 point cloud 3D object detection은 2D plane에 투영시켜 2D detector를 적용하는 view-based methods와 3D convolution을 적용하는 volumetric convolution-based methods를 활
본 연구에서는 point cloud와 single query image가 주어질 때 camera pose를 추정하고자 한다.Rendering을 하여 photometric loss를 활용하는 방식은 ERP의 극 부분에서 나타나는 왜곡을 고려하기 위한 처리가 필요하며 연산
Problem 거울과 같이 reflection이 발생하는 물체가 있는 경우 multi view에서 geometric consistency가 유지되지 않음 Geometry가 유지되도록 거울 뒤에 화분을 잘 배치한 경우 NeRF가 잘 학습되지만 그렇지 않은 경우 학습이
TriPlane을 활용하여 NeRF나 voxel representation의 inefficiency를 해결함2D feature map 3개로 구성되기 때문에 StyleGan2와 같은 2D 네트워크로 3D를 풀 수 있다는 장점도 있음Raw resolution을 bilin
2D feature를 frustum으로 lifting하여 만든 voxel grid로부터 volume renderingDiffusion model의 dimension의 한계 때문에 voxel을 압축시키는 Latent auto-encoder 제안Global, 3D coar
Encoder에서는 이미지로부터 만든 feature map을 3D로 올리고 RNR-Map 상의 동일한 (u,v)를 가지는 feature들을 average하여 latent code를 만듬.이 때 feature의 개수를 저장하여 이미지가 추가될 때 마다 계속 average
Single view를 받아 여러 view로 reprojection 한 후 completion3D consistency를 유지하기 위해 completion한 영역의 overlap이 적도록 selection 한 뒤 NeRF
각 이미지에서 따로 인코딩한 feature로 학습시킬 경우 생기는 artifact를 제거하기 위해 relative pose와 함께 두 이미지 간의 self-attention이 이뤄지는 Multi-View ViT Encoder 제안두 개의 이미지만을 쓰기 때문에 epip
Feature map과 더불어 layout map도 target view로 transform하여 fusion한 형태로 input으로 주며 loss measure 할 때도 활용하여 geometric consistency가 유지되도록 함Large translation을 가
Mesh는 4개의 픽셀을 쪼개는 방식으로 만듦Edge의 길이가 너무 길거나 surface normal과 viewing direction 사이의 각도가 threshold 이상이면 필터링기존 scene과 겹치되 각 camera pose가 최적의 거리를 만족하도록 하며, t
ERP의 위도에 따라 distance가 달라져 왜곡이 발생함을 활용해 local한 영역에만 집중하는 distortion-aware attention(DA)를 제안Class-wise Feature Aggregation0(CFA) module을 통해 pseudo label
Diffusion model에는 3D 정보가 없으므로 bias에 의해 front view를 더 많이 생성하게 되고 3D로 볼 때 여러 pose에서 face가 나타나는 현상이 있음또한, text ambiguity에 의해 같은 prompt여도 다른 이미지가 생성될 수 있음