3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection

wonnie1224·2024년 5월 1일

논문 리뷰

목록 보기

1/16

0. Abstract

monocular(=single view) 3D object detection의 주요 challenge : 실제 dataset에서 object의 다양성과 양이 제한적임
virtual object로 실제 장면을 augementation(증강)하는 것은 object의 다양성과 양을 모두 향상시킬 가능성이 있음
but 복잡한 실제 캡처 장면에서 효과적인 3D object insertion 방법이 없기 때문에 여전히 파악하기 어려움
=> 본 연구에서는 monocular 3D object detection을 위해 복잡한 실제 실내 장면을 가상 객체로 증강하는 것을 연구
major challenge : 어수선한 실제 장면에서 virtual asset에 대한 그럴듯한 물리적 속성(예: 위치, 외관, 크기 등)을 자동으로 식별하는 것
이러한 문제를 해결하기 위해 virtual object를 자동으로 copy하여 실제 장면에 paste하기 위한 물리적으로 그럴듯한 실내 3D object insertion 접근법을 제안
결과 : scene에서 object들은 plausible physical locations(그럴듯한 물리적 위치들) & appearances(외관)을 갖는 3D bounding box들을 가짐
특히, 1) 물리적으로 실현 가능한 위치를 식별하고 삽입된 객체에 대한 pose를 취하여 기존 room 레이아웃과의 충돌을 방지함
2) 삽입 위치에 대해 공간적으로 변화하는 illumination(조명)을 추정 -> 그럴듯한 외관과 캐스팅된 그림자를 가진 virtual object를 original scene으로 합성 가능

1. Introduction

2D augmentation method를 3D scene으로 확장시키는 건 어려움

Challenges to maintain physical plausibility

2D data보다 3D data에서 어려운 점들
1) Collision and Occlusion Handling
2) Illumination and Shading
3) Geometric Consistency

overall pipeline
1) 3D object insertion에 적합한 모든 plane을 식별하여 scene 분석
2) 충돌을 방지하기 위해 insertion site를 고려하여 object의 pose & size 추정
3) inserted object에 대해 현실적인 음영(shading)과 그림자를 렌더링하기 위해 공간적으로 변화하는 조명(spatially-varying illumination)을 추정하여 장면에 원활하게 혼합되도록 함

main contributions 3가지

1) 3D Copy-Paste 기법 제안 : 3D objects를 그럴듯하게 실내에 자동적으로 insert하는 기법
2) 3D Copy-Paste 기법을 사용하여 증강된 데이터셋에서 monocular 3D object detection model을 훈련하면 최첨단 성능을 얻을 수 있음
3) inserted object의 위치와 조도가 downstream monocular 3D object detection model의 성능에 미치는 영향에 대한 체계적인 평가 수행함

3. Methods

3.1 Where and how: Physically Plausible Position, Pose, and Size Estimation

3.1.1 Ground Plane Selection

insetion할 적절한 평면을 선택하려면, 먼저 surface 방향과 Z축을 따라 표준 편차를 기준으로 모든 수평 평면을 식별해야함

평면을 수평으로 간주하는 데는 2가지 constraint이 있음
(1) 평면의 표면 법선이 Z축의 양의 방향(중력 벡터의 반대 방향)에 align되어야 함
(2) Z축을 따라 표준 편차가 미리 정의된 임계값보다 작아야 함

3.1.2 Constrained Insertion Parameter Search

object를 어디에 어떻게 배치할 것인지에 대한 문제를 해결하기 위해 position(p), size(s), pose(o)와 같은 특정 insertion parameter를 추정함
scene에서 기존 object와의 충돌을 피하면서, 그럴듯한 insertion parameter를 계산하기 위한 constrained insertion parameter searching algorithm 제안함 (Algorithm 1).

(재구성된) reconstructed floor plane이 주어지면 먼저 각 parameter에 대한 search space 결정
position의 경우
: inserted object가 floor에 닿기를 원하므로 object의 3D bounding box를 찾아 바닥면의 중심(p)을 position의 optimization(최적화) parameter로 계산
- original scene에서 inserted object와 기존 assets 간의 잠재적 충돌을 방지하기 위해 reconstructed floor의 중심 주변에서 적합한 position 검색

Searching Insertion Position Algorithm
1) calculate the floor’s center c ← (cx, cy, cz)
2) set a search square - uses twice the floor’s standard deviation along X axis, σx, and Y axis, σy, as square width and length
3) The insertion position is sampled from a Uniform distribution inside the search square
px ∼ U[cx − σx, cx + σx] and py ∼ U[cy − σy, cy + σy], p ← (px, py, cz).

size(s)의 경우
: object의 3D bounding box 높이를 최적화 파라미터로 사용
- 각 object category에 대해 먼저 original scene 데이터 세트에서 동일한 category에 속하는 객체의 높이의 평균 mh 및 표준 편차 σh를 계산
- 높이 크기가 정규 분포를 따른다고 가정하고 이 정규 분포에서 높이 크기를 샘플링한다: s ∈ N(mh, σh)

wonnie1224

안녕하세요😊 컴퓨터비전을 공부하고 있는 대학원생입니다 🙌

다음 포스트