참조 표현 이해(REC) 데이터셋에 확장하는 것을 제안
물체의 특징을 더 잘 잡아내기 위해 정보를 강화
언어를 사용해서 어떤 물체를 찾을지에 대한 질문을 모델에게 줌.
시각 정보와 언어 정보를 합쳐서 정확한 결과를 얻을 수 있도록 하는 디코더를 사용
언어와 이미지를 모두 처리할 수 있고 대규모 데이터를 활용할 수 있는 transformer detector인 DINO
+ grounded pre-training을 결합
물체 감지에서 최첨단 성능을 보여주는 동시
에 다중 수준의 텍스트 정보를 알고리즘에 통합할 수 있는 기능도 제공
언어 정보를 고려한 영역 표현을 학습해야 함
각 영역을, (언어 정보와 연관지어) 새로운 범주로 분류할 수 있도록 학습