수렴 속도를 높이기 위해 기준점 주변의 키 샘플링 포인트 세트에 집중하는 deformable attention을 도입
이 기준점 개념은
인코더 출력과 reference box를, 직접 디코더에 대한 입력으로 선택하는 쿼리 선택과
두 디코더 계층 사이의 gradient 분리 설계를 통한 반복적인 경계 상자 개선을 가능하게 함
Contrastive DeNoising Training
만약 이미지에 n개의 GT 박스가 있다면, CDN 그룹은 각 GT 박스가 양성과 음성 쿼리를 생성하여 총 2 × n개의 쿼리를 갖게 됩니다.
부정적인 샘플은 배경으로 분류하는 Task
Mixed Query Selection
The top-K encoder features in the last layer are selected to initialize the positional queries for the Transformer decoder, whereas the content queries are kept as learnable parameters.
(a) static Queries: DETR/ DN-DETR/DAB-DETR
(b) Pure Query Selection: Deformable DETR
(c): Mixed Query Selection: DINO
b보다 c로 한 이유
As the selected features are preliminary content features without further refinement, they could be ambiguous and misleading to the decoder.
For example, a selected feature may contain multiple objects or be only part of an object.
In contrast, our mixed query selection approach only enhances the positional queries with top-K selected features and keeps the content queries learnable as before.
It helps the model to use better positional information to pool more comprehensive content features from the encoder.