dubbled BEVHeight
라는 접근 방식을 제안합니다. 모호한 장착 위치
와 가변적인 extrinsic parameter
를 가지기 때문에 현재 인지 모델에 중요한 도전 과제를 제기합니다.복잡한 장착 위치
와 가변적인 extrinsic parameter
로 인해 이들로부터 깊이를 예측하는 것은 어렵습니다. 이전에 논의한 바와 같이, 최신 BEV 카메라 기반 방법은 먼저 특성을 버드아이뷰 공간으로 투영한 다음, 네트워크가 3D 위치 정보에 대해 암묵적으로 [16-18] 또는 명시적으로 [10, 14, 15] 학습하도록 합니다.
RGB-D 인식에서 이전 접근 방식을 참고하여, 하나의 단순한 접근 방식은 픽셀 단위의 깊이를 위치 인코딩으로 활용하는 것입니다.
그림 2 (a)에서 현재 방법은 먼저 인코더를 사용하여 원본 이미지를 2D 특성 맵으로 변환합니다.
픽셀 단위의 깊이를 예측한 후, 각 픽셀 특성을 3D 공간으로 끌어올리고 복셀 풀링 기술을 사용하여 BEV 특성 공간에 압축합니다.
그러나 우리는 깊이를 사용하는 것이 자율 주행 시나리오에서 전방 카메라 설정에서는 최적이 아닐 수 있다는 것을 발견했습니다.
구체적으로, 우리는 DAIR-V2X-I [37] 데이터셋의 LiDAR 포인트 클라우드를 활용하여 이러한 포인트를 이미지에 투영한 다음, 픽셀 단위의 깊이 히스토그램을 그림 2 (b)에 표시합니다.
0에서 200미터까지 큰 범위를 관찰할 수 있습니다.
픽셀 단위의 높이를 그라운드에 대한 히스토그램으로 표시하고, 높이가 각각 -1m에서 2m까지 범위를 갖는 것을 명확히 관찰할 수 있습니다.
이는 네트워크가 예측하기에 더 쉬운 범위입니다.
그러나 실제로는 예측된 높이를 (깊이와 같이) 핀홀 카메라 모델에 직접 사용할 수 없습니다.
높이를 통해 2D에서 3D로 효과적으로 투영하는 방법은 아직 탐구되지 않았습니다.
Motivated by the DepthNet in BEVDepth [15]
, we leverage a Squeeze-and-Excitation layer
to generate the context features Fcontext
from the 2D image features F2d. residual blocks
[8] to increase the representation power and then use a deformable convolution layer
[41] to predict the per-pixel height. uvd space
-> camera coordinate
로 변환 (intrinsic 이용해서)camera coordinate
-> virtual coordinate