depth-shift issue
caused by the geometric misalignment of domains.
the depth-shift
, geometry-aligned multi-scale training strategy
disentangle(분리하다) the camera parameters
and guarantee the geometry consistency of domains.geometry-aligned multi-scale training strategy
quality-aware supervision
positive focusing training strategy
and dynamic threshold
are proposed to handle tremendous FN and FP pseudo samples. 긍정적인 초점 전략
은 양성 클래스의 샘플에 대해 가중치를 부여하거나, 오분류된 양성 샘플에 더 큰 페널티를 적용하는 방법을 사용하여 양성 클래스에 대한 훈련을 강화합니다. dynamic threshold
는 분류 문제에서 모델의 출력을 기준으로 양성과 음성으로 분류하기 위한 임계값을 동적으로 조정하는 전략을 말합니다.geometry-aligned multi-scale(GAMS) training
mean teacher paradigm
the readability of each teacher-generated prediction
most of them may risk drastic performance degradation when the domain of input images differs from that of training.
we first analyze the causes of the domain gap for the MV3D-Det task.
Based on the covariate shift assumption
, we find that the gap mainly attributes(기인하다) to the feature distribution of BEV
, which is determined by the quality of both depth estimation and 2D image’s feature representation.
견고한 깊이 예측을 위해,
Moreover, we modify the focal length values to create multiple pseudo-domains and
adversarial training loss
to encourage the feature representation to be more domain-agnostic.다양한 실험 결과로 Waymo, nuScenes, Lyft에서 우리의 접근 방식인 DG-BEV가 보이지 않는 대상 도메인에서의 성능 저하를 성공적으로 완화시키면서 소스 도메인의 정확성을 손상시키지 않음을 입증하였습니다.
그러나 대부분의 탐지기는 훈련 및 테스트 데이터가 동일한 도메인에서 얻어진 것으로 가정하며, 현실적인 상황에서 이를 보장하기 어렵습니다.
따라서 입력 이미지의 도메인이 변화할 때 성능 저하가 발생할 수 있습니다.
예를 들어, nuScenes [3]와 Waymo [34]는 3D 객체 탐지의 인기 있는 두 가지 벤치마크이며, 이들은 데이터 수집 장치가 동일하지 않습니다.
도메인 일반화(Domain Generalization, DG) [8, 18, 26]
본 논문에서는 MV3D-Det의 도메인 간 격차의 원인을 이론적으로 분석합니다.
공변량 변화 가정 [4]을 기반으로, 이러한 격차가 주로 BEV의 특징 분포에 기인하며, 이는 깊이 추정과 2D 이미지 특징에 의해 결정됩니다.
이를 바탕으로 우리는 BEV에서의 MV3D-Det을 위한 도메인 일반화 방법인 DG-BEV를 제안합니다.
구체적으로, 도메인이 변화할 때 깊이 추정이 부정확해지는 이유에 대해 철저한 분석을 수행하고, 다양한 도메인에서 사용되는 카메라의 내재 매개변수가 동일하게 보장되기 어렵다는 핵심 요인을 발견합니다 (이해를 돕기 위해 그림 2를 참조하십시오).
위 문제를 완화하기 위해, 미터 단위 깊이 예측을 크기 불변 깊이 예측으로 변환함으로써 깊이 추정을 내재 매개변수에서 분리하는 방법을 제안합니다.
또한, 카메라의 외재 매개변수 (예: 카메라 포즈)도 카메라 기반 깊이 추정에서 중요한 역할을 하지만 이전의 작업에서는 주로 무시되었습니다.
we introduce homography learning to dynamically augment the image perspectives
또한, 더 나은 일반화를 위해 도메인에 구애받지 않는 특징 표현이 선호
되므로,
요약하면, 본 논문의 주요 기여는 다음과 같습니다:
Distances can be more easily estimated when the camera perspective is transformed to a bird’s eye view (BEV).
For flat surfaces, Inverse Perspective Mapping (IPM) can accurately transform images to a BEV.
Three-dimensional objects such as vehicles and vulnerable road users are distorted by this transformation making it difficult to estimate their position relative to the sensor.
This paper describes a methodology to obtain a corrected 360◦ BEV image given images from multiple vehicle-mounted cameras.
The corrected BEV image is segmented into semantic classes and includes a prediction of occluded areas.
The neural network approach does not rely on manually labeled data, but is trained on a synthetic dataset in such a way that it generalizes well to real-world data.
By using semantically segmented images as input, we reduce the reality gap between simulated and real-world data and are able to show that our method can be successfully applied in the real world.
Extensive experiments conducted on the synthetic data demonstrate the superiority of our approach compared to IPM.
Multiple vehicle-mounted 카메라를 BEV segmented image로 잘 변환할 수 있는 방법을 제안함.
두 개의 네트워크 구조를 비교하여 제안한 구조가 BEV segmentation에 더 적합하다는 것을 보임.
시뮬레이션 데이터만으로 학습하여 manual labeling이 필요없도록 함,
실 환경 테스트에서도 sim-to-real gap 없이 잘 적용되는 것을 보임.
일부 class들을 항상 시야를 가림 (e.g. building, truck)
일부 class들은 절대 시야를 가리지 않음. (e.g. road)
자동차들은 그 뒤에 있는 높은 물체를 제외한 모든 시야를 가림. (e.g. truck, bus)
일부가 가려진 물체들은 모두 보이도록 남겨둠.
모든 카메라 뷰에서 가려진 물체는 occluded로만 labeling함.
RGB 이미지를 이용하여 end-to-end로 BEV segmentation을 하는 것은 다음과 같은 문제가 있음.
실 환경에서는 매칭되는 BEV 이미지 (RGB, segmentation 모두)를 얻기 어려움.
시뮬레이터 데이터로 학습할 수는 있지만, RGB 이미지는 Sim-to-real gap이 커서 성능이 매우 떨어짐.
위와 같은 문제를 해결하기 위해 Synthetic data만을 이용하여 학습함.
BEV segmentation 네트워크의 입력으로 camera의 semantic map을 주어 Sim-to-real gap을 최소화함.
Transformer 인코더
와 multi- level context-aware feature fusion decoder
로 구성됩니다.