[Point Review] Graph R-CNN for Scene Graph Generation

김경준·2022년 4월 29일
0

Point Review

목록 보기
10/26
post-thumbnail

Overview

(b) Object node extraction
(c) Relationship edge pruning
(d) Graph context integration

  • I:I: image
  • V:V: 이미지 내의 object 노드 집합
  • E(V2):E \in {V \choose 2 }: object 간의 relationship
  • O:O: Object 라벨
  • R:R: Relationship 라벨

Object Proposals

  • Faster R-CNN 활용하여 spatial region rio=[xi,yi,wi,hi]r_i^o=[x_i,y_i,w_i,h_i]와 feature vector xiox_i^o, class에 대한 확률분포 piop_i^o를 추출한다.

Relation Proposal Network

  • nn개의 object가 있을 때 O(n2)O(n^2)의 relation이 만들어질 수 있는데 relation proposal network(RePN)을 통해 pruning을 해준다.
  • Relation은 클래스에 따라 관계 여부가 결정될 수 있으므로 sij=f(pio,pjo)=<Φ(pio),ψ(pjo)>s_{ij}=f(p_i^o,p_j^o)=<\Phi(p_i^o),\psi(p_j^o)>을 활용한다.
  • Φ(),ψ()\Phi(\cdot),\psi(\cdot)는 주어와 목적어를 구별하기 위한 projection function이다.
  • 모든 pair는 sigmoid를 거쳐 나온 0~1 사이의 score를 가지며 내림차순으로 정렬 후 KK개의 pair를 NMS 한 결과 sparse한 G=(V,E)\mathcal G=(V,E)를 만든다.
  • 엣지에는 object pair의 union box의 feature를 추출한 visual representations이 담긴다.
    Xr={x1r,...,xmr},mX^r=\{x_1^r, ..., x_m^r\}, m: relation의 수

Attentional GCN

Vanila GCN

  • 노드 ii의 representation ziRdz_i \in \mathbb{R}^d는 이웃노드들 zjz_j를 선형변환 후 가중치 αij\alpha_{ij}를 준 후 더해 update 한다.
  • α\alpha는 0~1 사이의 값으로 feature의 symmetically normalized adjacency matrix에 의해 미리 계산된다.

aGCN

  • aGCN에서는 concat 한 node feature를 2-layer MLP에 통과시킨 후 softmax를 취해 αi\alpha_i를 구한다.
  • αii=1,αij=0jN(i)\alpha_{ii}=1, \alpha_{ij}=0 \, \forall j \notin \mathcal{N}(i)

aGCN for Scene Graph Generation

  • NN개의 object node와 mm개의 relationships에 추가로 모든 object nodes끼리 skip-connect edge를 연결시켜 global context를 고려한 representation update를 해준다.

Reference

0개의 댓글