image-text 데이터셋
에서 -> image-object level label
을 도출해내는 scaling up 방법을 제안각 객체를 설명하는 명사구의 조합
이 input으로 들어감Swin-Tiny 백본을 사용하는 SoTA DyHead 감지기
image-text 데이터셋
에서 -> image-object level
을 도출 하는법object detection을 그라운딩 작업으로 재구성
하여, 각 영역/박스를 텍스트 프롬프트의 phrase구절과 정렬
Swin-Tiny 백본을 사용하는 SoTA DyHead 감지기
Swin-Tiny 백본을 사용하는 SoTA DyHead 감지기
Image-Text Pair 데이터 대량 학습한 CLIP
은 Image Classification, Text-image retrieval Task에만 적용 가능했다.영역(또는 상자) 시각적 특징
과 토큰(또는 구) 언어 특징
의 내적으로 계산됩니다(그림 1 우측 참조). detection data introduce more bounding box annotations
and help train a new SoTA phrase grounding model.객체 탐지를 그라운딩(텍스트와 이미지의 특정 객체를 매칭하는 작업)으로 재구성
)과 의미적으로 풍부한 사전 학습은 task-specific annotations
are available, instead of tuning the whole model,