
본 리뷰는 원문을 최대한 직역한 내용입니다. 여기서 "우리는"은 저자를 지칭합니다. 참고 부탁드립니다.
Grounding-DINO는 Open-Vocabulary Detection (OVD), Phrase Grounding (PG), Referring Expression Comprehension (REC)을 포함한 다양한 비전 작업을 다루는 최첨단 open-set detection 모델입니다.

Image from Grounding Dino Paper
이러한 격차를 해소하기 위해, 저희는 MMDetection toolbox로 구축된 오픈소스의 포괄적이고 사용자 친화적인 파이프라인인 MM-Grounding-DINO를 제시합니다.
(참고) MMDetection은 오픈소스 객체 탐지(Object Detection) 툴박스로, 주로 PyTorch 기반으로 개발된 컴퓨터 비전 라이브러리입니다. 이는 다양한 객체 탐지 알고리즘을 쉽게 학습, 평가, 배포할 수 있도록 도와주는 프레임워크입니다.
이 모델은 사전 훈련을 위해 풍부한 비전 데이터셋을, fine-tuning을 위해 다양한 detection 및 grounding 데이터셋을 채택합니다. 저희는 보고된 각 결과에 대한 포괄적인 분석과 재현을 위한 세부 설정을 제공합니다.
https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino
객체 detection 작업은 일반적으로 이미지를 모델에 입력하여 제안을 얻은 다음, 이를 multi-modal alignment를 통해 텍스트와 매칭하는 것을 포함하며, 이는 대부분의 최첨단 multi-modal 이해 아키텍처의 핵심 구성 요소입니다.
현재 객체 detection은 입력 텍스트의 유형에 따라 세 가지 하위 작업으로 세분화할 수 있습니다: Open-Vocabulary Detection (OVD), Phrase Grounding (PG), Referring Expression Comprehension (REC).
최근 몇 년간 위의 작업들을 해결하기 위해 수많은 비전 grounding 및 detection 모델이 탐구되었습니다.
Grounding-DINO는 feature enhancer, query selection module, decoder를 포함하여 다양한 단계에서 비전과 언어 modality의 통합을 실행합니다.
이 섹션에서는 모델과 데이터셋을 자세히 소개합니다. 달리 명시되지 않는 한, MM-G는 MM-Grounding-DINO를, G-DINO는 Grounding-DINO를 나타냅니다.
언급한 바와 같이, 저희 모델은 Grounding-DINO를 기반으로 하며 거의 변경되지 않았습니다. 저희 프레임워크는 Figure 3에 나와 있습니다. [Batchsize, 3, H, W] 형태의 이미지와 텍스트 설명이 주어지면, 저희 모델은 설명을 해당 생성된 bounding box와 정렬할 수 있습니다.

모델의 구성 요소는 다음과 같습니다:
특성 추출 및 융합:
이미지 backbone을 사용하여 다중 스케일에서 이미지 특성을 추출하고, 동시에 텍스트 backbone을 사용하여 텍스트 특성을 추출합니다.feature enhancer module에 입력하여 cross-modality 융합을 수행합니다.
Language-Guided Query Selection:
Cross-modality Decoder:
차이점:
MM-G와 G-DINO의 주요 차이점은 contrastive embedding module에 있습니다.

저희 데이터 형식은 Open Grounding-DINO의 형식에서 영감을 받아 MMDetection의 형식으로 수정되었습니다. MM-Grounding-DINO는 다른 종류의 주석을 가진 데이터셋으로 세 가지 작업을 다루도록 설계되어, 사용한 15개 데이터셋을 세 그룹으로 나누었습니다.
OVD 데이터셋:
PG 데이터셋:
REC 데이터셋:

텍스트 입력 규칙:
모델 종류:

데이터 증강:
컴퓨팅 리소스:
Zero-shot 설정에서, MM-G 모델은 처음에 기본 데이터셋에서 훈련되고 이후 새로운 데이터셋에서 평가됩니다.
COCO 벤치마크:

결과는 O365로만 훈련된 MM-G(a)(mAP 48.5)조차도 O365, Gold-G, Cap4M으로 훈련된 G-DINO(c)(mAP 48.4)를 능가할 수 있음을 보여줍니다.
LVIS 벤치마크:

ODinW 벤치마크:

RefCOCO/+/g 및 gRefCOCO 벤치마크:

GRIT는 오픈소스가 아닌 Cap4M의 대체재로 사용된 대규모 데이터셋입니다. 하지만 위의 결과에서 보듯이 GRIT의 성능은 기대에 미치지 못합니다. GRIT의 이미지와 주석을 관찰한 결과, 주요 이유들을 다음과 같이 열거할 수 있습니다:

GRIT의 텍스트 주석은 COYO-700M과 LAION-2B의 캡션에서 spaCy로 추출한 구문이나 문장에서 나오며, 인명, 이벤트, 시설, 지정학적 개체와 같은 많은 추상적 구문을 포함하여 모델을 잘못된 방향으로 이끌 수 있습니다.
GRIT 데이터셋에서 대부분의 이미지는 단일 주석이 함께 제공됩니다. 단일 주석은 실제로는 이미지의 전체 캡션인 긴 문장과 이미지의 전체 범위에 거의 걸쳐 있는 노이즈가 많은 박스를 포함합니다.
이 보고서의 기본 fine-tuning은 MM-G-T(c3) 사전 훈련된 모델을 기반으로 합니다.
COCO/LVIS에서의 Fine-tuning: MM-Grounding-DINO의 기능을 철저히 평가하기 위해 세 가지 주요 fine-tuning 접근법을 구현했습니다: close-set fine-tuning, open-set continuing pretraining fine-tuning, open-vocabulary fine-tuning.
Table 10에서 보듯이, MM-G-T는 close-set fine-tuning과 open-set continuing pretraining fine-tuning 모두를 통해 COCO 데이터셋에서 성능이 크게 향상되었습니다.

특히 MM-G-T는 12 epoch의 close-set fine-tuning 후 7.8 mAP 증가하여 58.2 mAP에 도달했습니다.
하위 작업에서의 Fine-tuning: MM-Grounding-DINO의 일반화 가능성을 포괄적으로 보여주기 위해 다양한 하위 작업으로 평가를 확장했습니다.
안개 속 객체 detection: Real-world Task-driven Testing Set (RTTS)를 활용했으며, MM-Grounding-DINO는 12 epoch의 fine-tuning 후 69.1 AP에 도달했습니다.
수중 객체 detection: Real-world Underwater Object Detection dataset (RUOD)에서 평가했으며, 12 epoch의 fine-tuning 후 35.7 mAP 향상을 보여 새로운 벤치마크를 설정했습니다.
뇌종양 객체 detection: Brain tumor 데이터셋에서 평가했으며, 이 데이터셋은 설명적 라벨 정보 없이 숫자 식별자만 사용하는 독특한 라벨링 접근법을 사용합니다.
Cityscapes 객체 detection: 50개 도시의 거리에서 촬영된 스테레오 비디오 시퀀스가 포함된 광범위한 도시 거리 장면 컬렉션입니다.

이 논문에서 저희는 Grounding-DINO를 기반으로 하고 풍부한 비전 데이터셋으로 사전 훈련된 포괄적이고 오픈소스인 grounding baseline인 MM-Grounding-DINO를 제안했습니다. 이는 OVD, PG, REC 작업을 포괄적으로 다룹니다. OVD, PG, REC 평가를 위한 모든 사용 가능한 벤치마크를 확장했으며, 모든 평가 지표는 MMDetection에서 쉽게 사용할 수 있습니다.
언급된 벤치마크에서의 광범위한 실험은 저희 MM-Grounding-DINO가 Grounding-DINO baseline을 능가(또는 동등한 성능)함을 보여줍니다. 저희 파이프라인이 grounding 및 detection 작업의 추가 연구를 위한 귀중한 자원 역할을 하기를 바랍니다.