[논문 리뷰] DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene Context Graph and Relation-based Optimization

김경준·2022년 4월 3일
0

논문

목록 보기
22/37
post-thumbnail

Introduction

  • 일반적인 카메라의 FoV(Field of View)는 60도이기 때문에 context 정보의 활용이 제한적이다.
  • 본 논문에서는 360도 파노라마를 활용하여 obejects' shapes, 3D poses, semantic category, room layout 등을 추정해 더 효과적인 scene understanding을 한다.
  • Local한 영역으로부터 room layout과 object에 대한 정보를 뽑아내며 그래프를 활용한 global context 정보를 통해 초기 추정값을 조정한다.
  • 그래프에서의 relation을 예측하기 위해 미분 가능한 새로운 optimization 기법을 제안하며 학습시 relation prediction과 object arrangement를 동시에 수행한다.
  • 또한, 좋은 퀄리티의 파노라마 데이터셋이 충분하지 못하기 때문에 새로운 데이터셋도 제시한다.

Method

Bottem-up Initialization

  • Local image appearance로부터 room layout, objects' pose, shape codes에 대해 초깃값을 뽑아낸다.
  • Mask R-CNN을 통해 2D object detection을 하고 각 객체의 mask는 중심의 위경도와 수평, 수직의 field of view로 정의되는 Bounding FoV(BFoV)로 표현한다.
  • BFoV는 perspective view로 투영되어 Object Detection Network(ODN)을 통해 inital 3D pose를 추정하며 Local Implicit Embedding Network(LIEN)을 통해 shape representation code를 추출한다.
  • Room layout은 HorizonNet을 통해 추정한다.

Relation-based Graph Convolutional Network

  • 초기 추정 이후 Graph R-CNN을 통해 context 정보를 scene graph에 인코딩한다.
  • 본 논문에서는 obeject pose 뿐만 아니라 그래프에서의 relation도 refinement하기 때문에 Relation-based Graph Convolution(RGCN)이라 칭한다.

Graph Construction

  • Object와 더불어 HorizonNet을 통해 얻은 wall 또한 node로 두며 관계가 있는 node들끼리는 undirected edge로 연결한다.

Input Feature

  • Object node: bbox parameters, category/analytic code and blob centers of LDIF, height differences between 3D box corners and the floor/ceiling plane, 2D distances from bbox corners to the polygon
  • Relation node: Geometry feature of 2D bouding box, object-object rotation, separation distance between each pair of object/wall

Relation Estimation

  • 관계성에 대해서는 binary classification 문제로 풀었으며 rotation은 8개의 class로 나누어 Multi-class classification으로 정의하였다.
  • Relation은 추가적인 MLP를 통해 node representation을 input으로 받아 추정한다
  • Objects, layout들의 relation estimation으로는 다음과 같은 정보들을 담는다.

Object-object
1. 두 객체의 front face 간의 상대적인 rotation
2. 두 객체의 3D bounding box가 contact하는지
3. 3D bounding box의 center가 다른 객체보다 camera center로부터 먼지

Object-layout
1.객체가 바닥 혹은 천장에 맞닿아있는지
2. 3D bounding box가 완전히 방 안에 존재하는지

Relation Optimization

  • Object poses를 refine하는 과정에서 context 관점에서 부자연스러운스러운 부분들이 생길 수 있기 때문에 이를 고려하여 optimization을 한다.
  • Optimization은 크게 physical collision, conformity to relation, concistency with bottom-up observations를 측정해 loss를 최소화시키는 방식으로 진행한다.

Collision Term

  • eijoc:e_{ij}^{oc}: object 간의 충돌에 대한 term으로 두 객체의 모든 axes에 대해 projection 했을 때 겹치는 영역 dd의 합으로 정의한다. Sij\mathbb{S}_{ij} separating axes의 집합
  • ewc:e^{wc}: object와 wall 사이의 충돌에 대한 term으로 bounding box corners와 layout floor map 사이의 거리로 정의한다.
  • efc,ecc:e^{fc}, e^{cc}: object와 floor/ceiling 사이의 충돌에 대한 term으로 boundin box의 윗단 혹은 아랫단과 floor/ceiling 사이의 거리로 정의한다.
  • liin:l_i^{in}: 방 외부에 있는 객체들이 보일 수 있기 때문에 in-room liklihood 값을 추가해준다

Relation Term

  • err:e^{rr}: Relative rotation에 대한 term으로 observed angle과 predicted angle의 차이로 정의한다.
  • eoa:e^{oa}: Object attachment relation에 대한 term으로 ooco^{oc}와 유사하게 separation distance의 합으로 정의하지만 collision이 없는 경우에만 계산한다.
  • efa,eca:e^{fa}, e^{ca}: lower/upper surface와 floor/ceiling
  • erd:e^{rd}: view distance의 차이에 대한 term으로 두 객체의 camera center로부터의 거리의 순서가 잘못되었을때만 계산한다.
  • W\mathbb{W}는 walls의 집합, ll^{*}은 RGCN에 의해 예측된 relation label을 의미한다.

Observation Term

  • Object poses refinement는 inital predictions과의 consistency도 고려해야 한다.
  • ebp:e^{bp}: 3D cuboid를 cuboid의 중심의 tanget plane에 투영시킨 2D boudning box와 Mask R-CNN의 결과의 IOU.
  • δ:\delta: 2D detection의 중심과 cuboid center projection의 차이
  • d:d: camera center와 cuboid center 사이의 거리
  • s:s: size
  • θ:\theta: orientation

Loss function

  • (1)의 L\mathcal{L}_*은 object pose parameter를 위한 classification, regression loss이다.
  • (2)의 Lrr\mathcal{L}_{rr}은 rotation classification을 위한 8-class cross entropy다.
  • (2)의 Lx,xoa,fa,ca,rd\mathcal{L}_x, x \in oa, fa, ca, rd는 binary cross entropy이다.
  • (3)의 Lx\mathcal{L}_x^{'}은 optimized pose parameter의 L1L_1 loss이다.

Experiments

  • 파노라마 이미지에 대한 scene understanding 연구가 이전에 없었기 때문에 FoV를 60 단위로 나눠 Total3D와 Im3D와 비교를 진행하였다.
  • mAP와 mIOU를 통해 3d object detction 성능이 향상되었음을 알 수 있다.
  • 표3은 충돌 횟수에 대한 표로 refinement optimization을 통해 그 횟수를 줄일 수 있음을 나타낸다.
  • 표4는 Ablation study로 각 optimization term의 유효성을 나타낸다.
  • 표5는 360도의 파노라마 이미지를 활용하는 것이 RGCN과 RO의 학습에 도움이 됨을 나타낸다.

Reference

0개의 댓글