DETR with Improved DeNoising AnchorBoxes for End-to-End Object Detection (DINO)

FSA·2023년 8월 4일

Object detection

목록 보기

9/23

DINO는 모델 크기와 데이터 크기 모두에서 잘 확장됩니다.
느린 수렴 문제 해결 + 근처에 물체가 없는 앵커에 대해서 -> 물체가 없다. 고 예측하는 성능 향상
- 초기 훈련 단계에서 일관성이 없는 최적화 목표를 유발하는 이분 그래프 매칭의 불안정성에서 비롯한 느린 수렴문제 해결
- Contrastive DeNoising Training
더 나은 쿼리 anchor selection을 통해, 학습 속도를 빠르게 함.
- Mixed Query Selection
학습 안정화를 위한 역전파 알고리즘 개선
- lookforwardtwice

- 인코더까지는 특별할 것은 없다.
- 새로운 혼합 쿼리 선택에 의해 앵커를 초기화하고,
- 인코더와 디코더가 결합되는 부분에서 deformable attention을 사용한다.
- 또한 동적 앵커 박스와 노이즈 제거 훈련, look forward twice 전략을 사용한다.
DETR 유사 모델에 비해 성능과 효율성을 향상
- denoising training을 위한 contrastive way
  - 일대일 매칭을 개선하기 위해 ground truth 양성 샘플과 음성 샘플을 동시에 추가하여 대조적인 노이즈 제거 훈련을 제안
  - 동일한 GT 박스에 두 가지 다른 노이즈를 추가한 후,
    - 더 작은 노이즈가 있는 상자를 양으로 표시하고, 다른 노이즈를 음으로 표시
- 앵커 초기화를 위한 mixed query selection method
  - 인코더 출력에서 초기 앵커 박스를 위치 쿼리로 선택하여, 쿼리를 더 잘 초기화하는 데 도움이 되는 혼합 쿼리 선택 방법을 제안
- 박스 예측을 위한 look forward twice scheme
  - 뒷 레이어에서 정제된 박스 정보를 활용하여 인접 앞 레이어의 피라미터를 최적화하는 데 도움이 되도록 하기 위해,
  - 뒷 레이어에서 gradient로 업데이트된 매개 변수를 수정하는 새로운 look forward twice 방식을 제안

DINO = DAB-DETR + DN-DETR + Deformable DETR
DAB-DETR
- https://velog.io/@hsbc/230804-DAB-DETR-Dynamic-Anchor-Boxes-are-Better-Queries-for-DETR-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0
- 쿼리는 위치 파트(훈련 가능한 쿼리)와 content 파트(디코더 임베딩)로 구성
- 4D 앵커 박스(x,y,w,h)를 사용한다.
- 앵커박스는 계층별로 동적으로 업데이트된다.
DN-DETR
- 훈련 초기의 모호한 이분 매칭이 느린 수렴을 야기한다는 것을 발견하고
- 노이즈를 섞은 GT 박스를 추가로 훈련시켜 훈련을 가속화하는 노이즈 제거 훈련을 도입
Deformable DETR
- 수렴 속도를 높이기 위해 기준점 주변의 키 샘플링 포인트 세트에 집중하는 deformable attention을 도입
- 이 기준점 개념은
  - 인코더 출력과 reference box를, 직접 디코더에 대한 입력으로 선택하는 쿼리 선택과
  - 두 디코더 계층 사이의 gradient 분리 설계를 통한 반복적인 경계 상자 개선을 가능하게 함

만약 이미지에 n개의 GT 박스가 있다면, CDN 그룹은 각 GT 박스가 양성과 음성 쿼리를 생성하여 총 2 × n개의 쿼리를 갖게 됩니다.
부정적인 샘플은 배경으로 분류하는 Task

The top-K encoder features in the last layer are selected to initialize the positional queries for the Transformer decoder, whereas the content queries are kept as learnable parameters.
(a) static Queries: DETR/ DN-DETR/DAB-DETR
(b) Pure Query Selection: Deformable DETR
(c): Mixed Query Selection: DINO
b보다 c로 한 이유
- As the selected features are preliminary content features without further refinement, they could be ambiguous and misleading to the decoder.
- For example, a selected feature may contain multiple objects or be only part of an object.
- In contrast, our mixed query selection approach only enhances the positional queries with top-K selected features and keeps the content queries learnable as before.
- It helps the model to use better positional information to pool more comprehensive content features from the encoder.