- Static knowledge는 knowledge sources나 domain에 따라 불완전하거나 부정확할 수 있다.
- Visual information으로부터 학습하는 learning-based knowledge는 perceptual confusion이 knowledge embedding에 담긴다.
- 노드, 엣지에 대한 latent representation
- 노드, 엣지의 layer 에서의 message를 계산하기 위한 parameterized neural networks
- 노드는 subject와 object로 나뉜다.
- subject, predicate, object에 대한 non-linear transformation
- 노드에 대한 최종 messages는 의 평균이며 엣지에 대한 최종 messages는 graph encoder의 output에 sum pooling 연산을 해주어 구한다.
- 은 각각 노드 에 subject와 object로 연결된 집합을 의미하며 은 cardinality이다.
Instance 마스킹된 scene point cloud를 input으로 받아 objects와 object pairs의 gemetrical feature를 encoding하는 것이 목적이다.
Multi-scale geometric 정보를 잡아내기 위해 multi-scale PointNet(MS PointNet)을 통해 point set를 encoding 한다.
Object set와 subject set를 각각 encoding 한 후 latent feature와 center coordinate를 concat 하여 object-pair edges의 initial embedding을 얻는다.
(left and right와 같은 contradictory 관계를 잘 encoding 하기 위해 features 간에는 subtraction을 활용한다.)
Perceptual information과 함께 global context를 잡아내기 위해 meta-embedding 과정에서 쓰였던 GNN을 동일하게 사용한다.
첫번째 iteration에서는 PoinNet의 geometric feature만을 input으로 받아 GNN과 MLP를 거쳐 노드와 엣지에 대한 class를 예측한다.
두번째 iteration에서는 각 노드 및 엣지에 상위 5개의 meta-embedding과 perceptual embedding을 fusion 하여 input으로 사용한다.
Feature vector 와 meta embedding vectors 는 서로 다른 latent space에 있으므로 two-layer feed forward networks 와 를 통해 transform 한 후 합쳐준다.
는 two-layer MLP이다.