local camera view coordinate
에서 하자.기존 방식 ( 2D images -> 3D global space
)
query embeddings
와 3D position-aware multi-view features
의 interaction )은 성능을 하락시킨다. 그 이유는 아래 2가지와 같다.2D image -> local
transformation과 local-> global
transformation을 결합시킨다.2D 이미지에서 3D 로컬 공간으로의 변환에 대한 view-invarinat 특성
> 3D 글로벌 공간으로 직접 변환하는 것
보다 학습하기 쉽다고 믿습니다. 특히, key 3D PE(포지션 임베딩)에 대해서는, 카메라 intrinsic 파라미터만을 사용하여 카메라 시스템에서 카메라 원뿔을 3D 좌표로 변환한 다음, 간단한 MLP 레이어를 통해 인코딩합니다.
query 3D PE에 대해서는, 글로벌 공간에서 정의된 3D 기준점을 카메라 extrinsic 파라미터만을 사용하여 로컬 카메라 시스템으로 변환한 후, 간단한 MLP 레이어를 통해 인코딩합니다.
[25, 28]에서 영감을 받아 key와 qeury에 대해, 이미지 특징과 디코더 임베딩의 안내로 3D PE를 얻습니다.
3D PE는 로컬 공간에 있지만 출력 쿼리는 글로벌 좌표계에서 정의되기 때문에, 서로 다른 표현 공간에서 임베딩이 혼합되지 않도록 Figure 1(b)에 나타난 양방향 어텐션 메커니즘을 채택합니다.
우리는 더 나아가 CAPE(CAmera view Position Embedding)를 확장하여 다중 프레임의 시간 정보를 통합하여, 3D 객체 검출 성능을 향상시킨 CAPE-T라는 이름의 방법을 제안합니다.
[11, 19]에서는 ego-motion을 사용하여 expicit BEV feature을 왜곡시키거나 or ego-motion을 postion embedding에 인코딩하는 것과는 다르게,
최근에는 몇 가지 방법들 [10, 19, 33, 37, 38]이 explicit BEV 맵을 사용하여 글로벌 시스템에서 객체를 인식하려고 시도합니다.
일부 방법들은 DETR [3] 패러다임을 따라 implicit BEV 특징을 학습
CAPE는 이미지 공간과 로컬 3D 공간에서 어텐션을 수행하여 뷰 변환의 차이를 제거
CAPE는 단일 뷰 접근 방식의 장점을 유지하며, 다중 뷰 이미지에서 제공되는 기하학적 정보를 활용할 수 있음
3D scene에서 글로벌 뷰에서 로컬 뷰로의 뷰 변환
은 detection 작업의 성능을 향상시키는 효과적인 방법입니다. 카메라-뷰 포지션 임베딩을 사용
하여, 다중 카메라로 인해 발생하는 extrinsic 변동성을 제거하기 위해 뷰 변환을 수행합니다.training / validation / testing
video scene setstemporal fusion을 long-term 으로 하다보니
계산량과 메모리 사용량이 너무 많아졌습니다.