Introduction
- 일반적인 카메라의 FoV(Field of View)는 60도이기 때문에 context 정보의 활용이 제한적이다.
- 본 논문에서는 360도 파노라마를 활용하여 obejects' shapes, 3D poses, semantic category, room layout 등을 추정해 더 효과적인 scene understanding을 한다.
- Local한 영역으로부터 room layout과 object에 대한 정보를 뽑아내며 그래프를 활용한 global context 정보를 통해 초기 추정값을 조정한다.
- 그래프에서의 relation을 예측하기 위해 미분 가능한 새로운 optimization 기법을 제안하며 학습시 relation prediction과 object arrangement를 동시에 수행한다.
- 또한, 좋은 퀄리티의 파노라마 데이터셋이 충분하지 못하기 때문에 새로운 데이터셋도 제시한다.
Method
Bottem-up Initialization
- Local image appearance로부터 room layout, objects' pose, shape codes에 대해 초깃값을 뽑아낸다.
- Mask R-CNN을 통해 2D object detection을 하고 각 객체의 mask는 중심의 위경도와 수평, 수직의 field of view로 정의되는 Bounding FoV(BFoV)로 표현한다.
- BFoV는 perspective view로 투영되어 Object Detection Network(ODN)을 통해 inital 3D pose를 추정하며 Local Implicit Embedding Network(LIEN)을 통해 shape representation code를 추출한다.
- Room layout은 HorizonNet을 통해 추정한다.
Relation-based Graph Convolutional Network
- 초기 추정 이후 Graph R-CNN을 통해 context 정보를 scene graph에 인코딩한다.
- 본 논문에서는 obeject pose 뿐만 아니라 그래프에서의 relation도 refinement하기 때문에 Relation-based Graph Convolution(RGCN)이라 칭한다.
Graph Construction
- Object와 더불어 HorizonNet을 통해 얻은 wall 또한 node로 두며 관계가 있는 node들끼리는 undirected edge로 연결한다.
- Object node: bbox parameters, category/analytic code and blob centers of LDIF, height differences between 3D box corners and the floor/ceiling plane, 2D distances from bbox corners to the polygon
- Relation node: Geometry feature of 2D bouding box, object-object rotation, separation distance between each pair of object/wall
Relation Estimation
- 관계성에 대해서는 binary classification 문제로 풀었으며 rotation은 8개의 class로 나누어 Multi-class classification으로 정의하였다.
- Relation은 추가적인 MLP를 통해 node representation을 input으로 받아 추정한다
- Objects, layout들의 relation estimation으로는 다음과 같은 정보들을 담는다.
Object-object
1. 두 객체의 front face 간의 상대적인 rotation
2. 두 객체의 3D bounding box가 contact하는지
3. 3D bounding box의 center가 다른 객체보다 camera center로부터 먼지
Object-layout
1.객체가 바닥 혹은 천장에 맞닿아있는지
2. 3D bounding box가 완전히 방 안에 존재하는지
Relation Optimization
- Object poses를 refine하는 과정에서 context 관점에서 부자연스러운스러운 부분들이 생길 수 있기 때문에 이를 고려하여 optimization을 한다.
- Optimization은 크게 physical collision, conformity to relation, concistency with bottom-up observations를 측정해 loss를 최소화시키는 방식으로 진행한다.
Collision Term
- eijoc: object 간의 충돌에 대한 term으로 두 객체의 모든 axes에 대해 projection 했을 때 겹치는 영역 d의 합으로 정의한다. Sij separating axes의 집합
- ewc: object와 wall 사이의 충돌에 대한 term으로 bounding box corners와 layout floor map 사이의 거리로 정의한다.
- efc,ecc: object와 floor/ceiling 사이의 충돌에 대한 term으로 boundin box의 윗단 혹은 아랫단과 floor/ceiling 사이의 거리로 정의한다.
- liin: 방 외부에 있는 객체들이 보일 수 있기 때문에 in-room liklihood 값을 추가해준다
Relation Term
- err: Relative rotation에 대한 term으로 observed angle과 predicted angle의 차이로 정의한다.
- eoa: Object attachment relation에 대한 term으로 ooc와 유사하게 separation distance의 합으로 정의하지만 collision이 없는 경우에만 계산한다.
- efa,eca: lower/upper surface와 floor/ceiling
- erd: view distance의 차이에 대한 term으로 두 객체의 camera center로부터의 거리의 순서가 잘못되었을때만 계산한다.
- W는 walls의 집합, l∗은 RGCN에 의해 예측된 relation label을 의미한다.
Observation Term
- Object poses refinement는 inital predictions과의 consistency도 고려해야 한다.
- ebp: 3D cuboid를 cuboid의 중심의 tanget plane에 투영시킨 2D boudning box와 Mask R-CNN의 결과의 IOU.
- δ: 2D detection의 중심과 cuboid center projection의 차이
- d: camera center와 cuboid center 사이의 거리
- s: size
- θ: orientation
Loss function
- (1)의 L∗은 object pose parameter를 위한 classification, regression loss이다.
- (2)의 Lrr은 rotation classification을 위한 8-class cross entropy다.
- (2)의 Lx,x∈oa,fa,ca,rd는 binary cross entropy이다.
- (3)의 Lx′은 optimized pose parameter의 L1 loss이다.
Experiments
- 파노라마 이미지에 대한 scene understanding 연구가 이전에 없었기 때문에 FoV를 60 단위로 나눠 Total3D와 Im3D와 비교를 진행하였다.
- mAP와 mIOU를 통해 3d object detction 성능이 향상되었음을 알 수 있다.
- 표3은 충돌 횟수에 대한 표로 refinement optimization을 통해 그 횟수를 줄일 수 있음을 나타낸다.
- 표4는 Ablation study로 각 optimization term의 유효성을 나타낸다.
- 표5는 360도의 파노라마 이미지를 활용하는 것이 RGCN과 RO의 학습에 도움이 됨을 나타낸다.
Reference