Overview
(b) Object node extraction
(c) Relationship edge pruning
(d) Graph context integration
- I: image
- V: 이미지 내의 object 노드 집합
- E∈(2V): object 간의 relationship
- O: Object 라벨
- R: Relationship 라벨
Object Proposals
- Faster R-CNN 활용하여 spatial region rio=[xi,yi,wi,hi]와 feature vector xio, class에 대한 확률분포 pio를 추출한다.
Relation Proposal Network
- n개의 object가 있을 때 O(n2)의 relation이 만들어질 수 있는데 relation proposal network(RePN)을 통해 pruning을 해준다.
- Relation은 클래스에 따라 관계 여부가 결정될 수 있으므로 sij=f(pio,pjo)=<Φ(pio),ψ(pjo)>을 활용한다.
- Φ(⋅),ψ(⋅)는 주어와 목적어를 구별하기 위한 projection function이다.
- 모든 pair는 sigmoid를 거쳐 나온 0~1 사이의 score를 가지며 내림차순으로 정렬 후 K개의 pair를 NMS 한 결과 sparse한 G=(V,E)를 만든다.
- 엣지에는 object pair의 union box의 feature를 추출한 visual representations이 담긴다.
Xr={x1r,...,xmr},m: relation의 수
Attentional GCN
Vanila GCN
- 노드 i의 representation zi∈Rd는 이웃노드들 zj를 선형변환 후 가중치 αij를 준 후 더해 update 한다.
- α는 0~1 사이의 값으로 feature의 symmetically normalized adjacency matrix에 의해 미리 계산된다.
aGCN
- aGCN에서는 concat 한 node feature를 2-layer MLP에 통과시킨 후 softmax를 취해 αi를 구한다.
- αii=1,αij=0∀j∈/N(i)
aGCN for Scene Graph Generation
- N개의 object node와 m개의 relationships에 추가로 모든 object nodes끼리 skip-connect edge를 연결시켜 global context를 고려한 representation update를 해준다.
Reference