DEIM: DETR with Improved Matching for Fast Convergence

공부 내용 정리·2025년 4월 7일

1. Introduction

YOLO와 같은 객체 탐지 모델은 학습 과정에서 제안된 다수의 예측 결과와 단일 정답을 비교하는 O2M (one-to-many) 매칭 방법을 사용하므로, 중복 예측을 제거하기 위해 NMS 알고리즘이 필요하다. 반면, Transformer 기반의 DETR은 학습 과정에서 제안된 단 하나의 예측 결과와 단일 정답을 비교하는 O2O (one-to-one) 매칭 방법을 사용한다. DETR 모델은 end-to-end 학습이 가능하며, NMS 알고리즘으로 후처리할 필요가 없다는 장점이 있다. 다만, O2O 매칭 방법을 사용한 학습은 O2M 매칭 방법과 비교했을 때 양성 샘플의 수가 제한되어 학습 수렴 속도가 느리다는 단점이 있다. 논문에서는 DETR의 느린 학습 수렴 속도의 원인을 두 가지로 분석한다.

  • Sparse supervision: O2O 매칭 방법은 하나의 타겟당 단 하나의 양성 샘플만 할당하여 훈련 샘플 수를 크게 제한한다. 이는 특히 작은 물체의 탐지 성능 저하로 이어진다.
  • Low-quality matches: O2O 매칭 방법은 적은 수의 쿼리를 정답과 매칭하므로 낮은 IoU를 가진 매칭이 자주 발생하여 잘못된 예측을 초래한다.

논문에서는 DETR의 학습 수렴 속도 문제를 개선하기 위해 DEIM을 제안한다. DEIM은 Dense O2O 매칭 방법과 MAL 손실 함수를 사용하는 학습 방법이다. Dense O2O 매칭 방법은 이미지를 증강하여 대상의 수를 늘림으로써 매칭되는 양성 샘플의 수를 증가시키는 특징을 가진다. MAL은 IoU가 낮은 예측 결과와 정답 간의 손실 값을 증가시켜 학습 효과를 높이는 역할을 한다.


2. Method

  • Dense One-to-One (Dense O2O) 매칭 방법
    Dense O2O 매칭 방법은 기존의 O2O 매칭 구조를 그대로 유지하면서 이미지 내 대상의 수를 인위적으로 늘려 양성 샘플의 총 개수를 증가시키는 접근 방식이다. 이를 위해 Mosaic, Mixup 등의 데이터 증강 기법을 활용하여 한 이미지 내에 여러 복제된 대상을 생성한다. 이 방식은 O2O 매칭 방식의 한계를 극복하고, 추가적인 계산 오버헤드 없이 O2M 방식과 유사한 수준의 밀집된 지도 학습을 가능하게 한다.

  • Matchability-Aware Loss (MAL)
    MAL은 기존 VariFocal Loss(VFL)가 높은 IoU를 가진 양성 샘플에 집중하여 낮은 품질의 매칭에 대해 충분한 학습 정보를 제공하지 못하는 문제를 해결하기 위해 고안된 손실 함수이다. 이 손실 함수는 예측된 바운딩 박스와 실제 대상 간의 IoU를 직접 반영하는 방식을 채택한다. MAL은 수식 구조를 단순화하고 낮은 매칭 결과에도 강한 패널티를 부여하여 전체 학습 효율과 최종 검출 성능을 향상시키는 효과가 있다.


3. Experiments

실험에서는 MS-COCO 데이터셋을 활용하여 RT-DETR, D-FINE 등 다양한 DETR 기반 모델에 DEIM을 적용한 후 학습 효율성이 크게 개선됨을 확인한다. 특히, 작은 객체에 대한 검출 성능에서도 뚜렷한 개선 효과가 나타난다.

profile
프로젝트 및 논문 정리

0개의 댓글