monocular(=single view) 3D object detection의 주요 challenge : 실제 dataset에서 object의 다양성과 양이 제한적임
virtual object로 실제 장면을 augementation(증강)하는 것은 object의 다양성과 양을 모두 향상시킬 가능성이 있음
but 복잡한 실제 캡처 장면에서 효과적인 3D object insertion 방법이 없기 때문에 여전히 파악하기 어려움
=> 본 연구에서는 monocular 3D object detection을 위해 복잡한 실제 실내 장면을 가상 객체로 증강하는 것을 연구
major challenge : 어수선한 실제 장면에서 virtual asset에 대한 그럴듯한 물리적 속성(예: 위치, 외관, 크기 등)을 자동으로 식별하는 것
이러한 문제를 해결하기 위해 virtual object를 자동으로 copy하여 실제 장면에 paste하기 위한 물리적으로 그럴듯한 실내 3D object insertion 접근법을 제안
결과 : scene에서 object들은 plausible physical locations(그럴듯한 물리적 위치들) & appearances(외관)을 갖는 3D bounding box들을 가짐
특히, 1) 물리적으로 실현 가능한 위치를 식별하고 삽입된 객체에 대한 pose를 취하여 기존 room 레이아웃과의 충돌을 방지함
2) 삽입 위치에 대해 공간적으로 변화하는 illumination(조명)을 추정 -> 그럴듯한 외관과 캐스팅된 그림자를 가진 virtual object를 original scene으로 합성 가능
overall pipeline
1) 3D object insertion에 적합한 모든 plane을 식별하여 scene 분석
2) 충돌을 방지하기 위해 insertion site를 고려하여 object의 pose & size 추정
3) inserted object에 대해 현실적인 음영(shading)과 그림자를 렌더링하기 위해 공간적으로 변화하는 조명(spatially-varying illumination)을 추정하여 장면에 원활하게 혼합되도록 함
1) 3D Copy-Paste 기법 제안 : 3D objects를 그럴듯하게 실내에 자동적으로 insert하는 기법
2) 3D Copy-Paste 기법을 사용하여 증강된 데이터셋에서 monocular 3D object detection model을 훈련하면 최첨단 성능을 얻을 수 있음
3) inserted object의 위치와 조도가 downstream monocular 3D object detection model의 성능에 미치는 영향에 대한 체계적인 평가 수행함
insetion할 적절한 평면을 선택하려면, 먼저 surface 방향과 Z축을 따라 표준 편차를 기준으로 모든 수평 평면을 식별해야함
Searching Insertion Position Algorithm
1) calculate the floor’s center c ← (cx, cy, cz)
2) set a search square - uses twice the floor’s standard deviation along X axis, σx, and Y axis, σy, as square width and length
3) The insertion position is sampled from a Uniform distribution inside the search square
px ∼ U[cx − σx, cx + σx] and py ∼ U[cy − σy, cy + σy], p ← (px, py, cz).