DETR with Improved DeNoising AnchorBoxes for End-to-End Object Detection (DINO)

FSA·2023년 8월 4일
0

Object detection

목록 보기
9/23

왜 쓰는가?

  • DINO는 모델 크기데이터 크기 모두에서 잘 확장됩니다.
  • 느린 수렴 문제 해결 + 근처에 물체가 없는 앵커에 대해서 -> 물체가 없다. 고 예측하는 성능 향상
    • 초기 훈련 단계에서 일관성이 없는 최적화 목표를 유발하는 이분 그래프 매칭의 불안정성에서 비롯한 느린 수렴문제 해결
    • Contrastive DeNoising Training
  • 더 나은 쿼리 anchor selection을 통해, 학습 속도를 빠르게 함.
    • Mixed Query Selection
  • 학습 안정화를 위한 역전파 알고리즘 개선
    • lookforwardtwice

Abstact

    • 인코더까지는 특별할 것은 없다.
    • 새로운 혼합 쿼리 선택에 의해 앵커를 초기화하고,
    • 인코더와 디코더가 결합되는 부분에서 deformable attention을 사용한다.
    • 또한 동적 앵커 박스와 노이즈 제거 훈련, look forward twice 전략을 사용한다.
  • DETR 유사 모델에 비해 성능과 효율성을 향상
    • denoising training을 위한 contrastive way
      • 일대일 매칭을 개선하기 위해 ground truth 양성 샘플과 음성 샘플을 동시에 추가하여 대조적인 노이즈 제거 훈련을 제안
      • 동일한 GT 박스에 두 가지 다른 노이즈를 추가한 후,
        • 더 작은 노이즈가 있는 상자를 양으로 표시하고, 다른 노이즈를 음으로 표시
    • 앵커 초기화를 위한 mixed query selection method
      • 인코더 출력에서 초기 앵커 박스를 위치 쿼리로 선택하여, 쿼리를 더 잘 초기화하는 데 도움이 되는 혼합 쿼리 선택 방법을 제안
    • 박스 예측을 위한 look forward twice scheme
      • 뒷 레이어에서 정제된 박스 정보를 활용하여 인접 앞 레이어의 피라미터를 최적화하는 데 도움이 되도록 하기 위해,
      • 뒷 레이어에서 gradient로 업데이트된 매개 변수를 수정하는 새로운 look forward twice 방식을 제안

DINO

Preliminaries

  • DINO = DAB-DETR + DN-DETR + Deformable DETR
  • DAB-DETR
  • DN-DETR
    • 훈련 초기의 모호한 이분 매칭이 느린 수렴을 야기한다는 것을 발견하고
    • 노이즈를 섞은 GT 박스를 추가로 훈련시켜 훈련을 가속화하는 노이즈 제거 훈련을 도입
  • Deformable DETR
    • 수렴 속도를 높이기 위해 기준점 주변의 키 샘플링 포인트 세트에 집중하는 deformable attention을 도입
    • 이 기준점 개념은
      • 인코더 출력과 reference box를, 직접 디코더에 대한 입력으로 선택하는 쿼리 선택과
      • 두 디코더 계층 사이의 gradient 분리 설계를 통한 반복적인 경계 상자 개선을 가능하게 함

Contrastive DeNoising Training

  • 만약 이미지에 n개의 GT 박스가 있다면, CDN 그룹은 각 GT 박스가 양성과 음성 쿼리를 생성하여 총 2 × n개의 쿼리를 갖게 됩니다.
    부정적인 샘플은 배경으로 분류하는 Task

Mixed Query Selection

  • The top-K encoder features in the last layer are selected to initialize the positional queries for the Transformer decoder, whereas the content queries are kept as learnable parameters.
  • (a) static Queries: DETR/ DN-DETR/DAB-DETR
  • (b) Pure Query Selection: Deformable DETR
  • (c): Mixed Query Selection: DINO
  • b보다 c로 한 이유
    • As the selected features are preliminary content features without further refinement, they could be ambiguous and misleading to the decoder.
    • For example, a selected feature may contain multiple objects or be only part of an object.
    • In contrast, our mixed query selection approach only enhances the positional queries with top-K selected features and keeps the content queries learnable as before.
    • It helps the model to use better positional information to pool more comprehensive content features from the encoder.

Look Forward Twice

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글