# Scene graph

threejs(3)
이번엔 transform 학습 Vector3 3D 벡터를 나타내는 클래스 3D 공간의 한 점 (x, y, z 값을 갖는다.) Group Scene Graph 를 이용하여 그룹화하기 Mesh 들을 그룹화 함 (예를들어 로봇의 몸+팔+다리 를 하나로~) 지구/태양/달의 움직임을 만들어보기 태양계 자세히 보면 각각 자기가 돌면서 + 그룹으로도 돌고있다.

[논문 리뷰] GEMS: Scene Expansion using Generative Models of Graphs
Introduction 본 논문에서는 seed concept을 포함하는 다양한 scene을 제공해줄 수 있는 알고리즘을 제안한다. Scene graph expansion을 통해 seed graph에 새로운 object들을 추가하며 이 때 충족해야할 조건들은 다음과 같다. > 1. 제안되는 추가 object는 training dataset에서의 co-occurence pattern이 반영되어야 한다. > 2. Enhanced scene graph는 기존 그래프와는 다른 새로운 그래프여야 한다. > 3. 같은 seed graph에 대해 여러 개의 다른 그래프를 생성해야 한다. 최근에 molecular graph에 대해 auto-regressive하게 확장하는 연구들이 있었지만 scene graph에는 적합하지 않은 특성들이 존재하기 때문에 새로운 auto-regressive graph expansion model을 제안한다. Node prediction의 일반화를 위해

[논문 리뷰] Scene Graph Expansion for Semantics-Guided Image Outpainting
Notation Scene graph $\mathcal{S}=(O,R)$은 N개의 objects $O=\{oi\}{i=1:N}$과 relationship matrix $R=(r_{ij})\in\mathbb{R}^{N\times N}$으로 구성 $oi$는 object label, $r{ij}$는 object $i$와 $j$의 edge label $r{ij}$는 $\{y1^R, y2^R, ..., yM^R\}\cup \{0\}$, $y_i^R$은 relation label, $M$은 relation label의 수 Layout은 object의 bounding boxes의 리스트로 $B=\{bi\}{i=1:N}$로 표현한다. $bi=(bi^x,bi^y,bi^w,b_i^h)$ $D=(d_{ij})\in\mathbb{R}^{N \times N \times 4}$는 relationship의 bounding box disparity를 의미한다.

[논문 리뷰] Knowledge-inspired 3D Scene Graph Prediction in Point Cloud
Introduction Scene understanding은 AR/VR, robot navigation 등 여러 분야에 유용하지만 scanned 3D data는 incomplete하기 때문에 scene을 정확하게 이해하는데 어려움이 있다. 사람은 scene에 대해 이해할 때 visual perception 뿐만 아니라 흔히 지식 혹은 상식(knowledge)이라 부르는 class 간의 관계나 조합을 고려한다. Scene graph prediction에 있어 prior knowledge를 활용하는 방법에는 한계점이 존재한다. > 1. Static knowledge는 knowledge sources나 domain에 따라 불완전하거나 부정확할 수 있다. > 2. Visual information으로부터

[Point Review] SceneCAD: Predicting Object Alignments and Layouts in RGB-D Scans
Contribution 3D reconstruction은 occlusion이나 센서의 영향으로 불완전하기 때문에 application에 어려움이 있다. -> RGB-D scan, objects with CAD model을 받아 그래프를 활용하여 scene을 CAD 모델로 나타낸다. Methods Layout Prediction Encoder-decoder 구조의 네트워크에서 voxel-wise binary cross-entropy를 통해 corner에 대한 heatmap을 만들어 예측한다. 모든 corner를

[논문 리뷰] Image Generation from Scene Graphs
Introduction 생성 모델의 유용성으로 text로부터 이미지를 생성하는 모델들이 나왔으나 sentence에 많은 object가 존재할 때는 생성에 어려움이 있었다. 선형 구조의 sentence를 위 그림과 같이 objects와 relationships로 표현하는 scene grah로 나타낼 수 있다. Scene graph는 image와 language를 모두 표현할 수 있기 때문에 본 논문에서는 scene graph로부터 이미지 생성을 하는 네트워크를 제안한다. Method 생성된 이미지는 그래프에서 명시된

[Point Review] Graph R-CNN for Scene Graph Generation
Overview > (b) Object node extraction (c) Relationship edge pruning (d) Graph context integration > - $I:$ image > - $V:$ 이미지 내의 object 노드 집합 $E \in {V \choose 2 }:$ object 간의 relationship $O:$ Object 라벨 > - $R:$ Relationship 라벨 Object Proposals Faster R-CNN 활용하여 spatial region $ri^o=[xi,y_i

[Point Review] SceneGraphNet: Neural Message Passing for 3D Indoor Scene Augmentation
Contribution 3D scene에서 location query가 주어졌을 때 적절한 객체의 type에 대한 예측을 하는 task Shape과 context에 대한 정보를 message passing하여 objec type에 대한 확률분포를 추정 Methods 각 노드에는 category, position, scale에 대한 정보가 담겨있다. 노드의 정보를 MLP를 통해 다른 노드로 전달하며 message의 중요도에 따라 가중치를 부여한다(attention mechanism) 여러 노드들로부터 모은 정보들은 GRU 모듈을

[논문 리뷰] DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene Context Graph and Relation-based Optimization
Introduction 일반적인 카메라의 FoV(Field of View)는 60도이기 때문에 context 정보의 활용이 제한적이다. 본 논문에서는 360도 파노라마를 활용하여 obejects' shapes, 3D poses, semantic category, room layout 등을 추정해 더 효과적인 scene understanding을 한다. Local한 영역으로부터 room layout과 object에 대한 정보를 뽑아내며 그래프를 활용한 global context 정보를 통해 초기 추정값을 조정한다. 그래프에서의 relation을 예측하기 위해 미분 가능한 새로운 optimization 기법을 제안하며 학습시 relation prediction과 object arrangement를 동시에

[논문 리뷰] SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences
Introduction Depth sensor의 이용, real-time dense SLAM 알고리즘의 발달 등과 함께 3D scene reconstruction은 geometric 정보뿐만 아니라 semantic 정보의 복원까지 그 중요성이 부각되었다. 그동안의 연구들은 완전한 3D scan을 얻기 위해 3D geometry를 사전 정보로 활용하였으며 실시간이 불가능하였다. 실시간 scene understanding에 있어 object의 모양이 시간에 따라 변하는 부분적이고 불완전한 scene의 복원과 global map에서 consistency를 유지하는 것은 어려운 문제이다. 본 연구에서는 incremental하게 3D mapping과 semantic scene graph를 동시에 만드는 r