

dubbled BEVHeight라는 접근 방식을 제안합니다. 
모호한 장착 위치와 가변적인 extrinsic parameter를 가지기 때문에 현재 인지 모델에 중요한 도전 과제를 제기합니다.복잡한 장착 위치와 가변적인 extrinsic parameter로 인해 이들로부터 깊이를 예측하는 것은 어렵습니다. 이전에 논의한 바와 같이, 최신 BEV 카메라 기반 방법은 먼저 특성을 버드아이뷰 공간으로 투영한 다음, 네트워크가 3D 위치 정보에 대해 암묵적으로 [16-18] 또는 명시적으로 [10, 14, 15] 학습하도록 합니다.
RGB-D 인식에서 이전 접근 방식을 참고하여, 하나의 단순한 접근 방식은 픽셀 단위의 깊이를 위치 인코딩으로 활용하는 것입니다.
그림 2 (a)에서 현재 방법은 먼저 인코더를 사용하여 원본 이미지를 2D 특성 맵으로 변환합니다.
픽셀 단위의 깊이를 예측한 후, 각 픽셀 특성을 3D 공간으로 끌어올리고 복셀 풀링 기술을 사용하여 BEV 특성 공간에 압축합니다.
그러나 우리는 깊이를 사용하는 것이 자율 주행 시나리오에서 전방 카메라 설정에서는 최적이 아닐 수 있다는 것을 발견했습니다.
구체적으로, 우리는 DAIR-V2X-I [37] 데이터셋의 LiDAR 포인트 클라우드를 활용하여 이러한 포인트를 이미지에 투영한 다음, 픽셀 단위의 깊이 히스토그램을 그림 2 (b)에 표시합니다.
0에서 200미터까지 큰 범위를 관찰할 수 있습니다.
픽셀 단위의 높이를 그라운드에 대한 히스토그램으로 표시하고, 높이가 각각 -1m에서 2m까지 범위를 갖는 것을 명확히 관찰할 수 있습니다.
이는 네트워크가 예측하기에 더 쉬운 범위입니다.
그러나 실제로는 예측된 높이를 (깊이와 같이) 핀홀 카메라 모델에 직접 사용할 수 없습니다.
높이를 통해 2D에서 3D로 효과적으로 투영하는 방법은 아직 탐구되지 않았습니다.



Motivated by the DepthNet in BEVDepth [15], we leverage a Squeeze-and-Excitation layer to generate the context features Fcontext from the 2D image features F2d. residual blocks [8] to increase the representation power and then use a deformable convolution layer [41] to predict the per-pixel height. 

uvd space -> camera coordinate로 변환 (intrinsic 이용해서)
camera coordinate -> virtual coordinate

