Paper: GLIP
GLIP모델은 멀티모달 정보를 이용해서 Detection Task에 사용됨
진행했던 프로젝트에 적용 가능한지 궁금해서 리뷰
CLIP에 Motivated 받아 Grounded Data를 활용해 Mutli-Modal Concept을 Object Detection Task에 적용함
Deploy Cost도 낮추고 새로운 Detection Task에 적용해도 성능이 좋음
Given an image and a corresponding caption, the Phrase Grounding task aims to ground each entity mentioned by a noun phrase in the caption to a region in the image.
이미지와 그에 대한 설명이 주어졌을 때, 설명에 나와있는 단어와 그에 해당하는 부분을 localize하는 Task
Object detection can be cast as context-free phrase grounding while phrase grounding can be viewed as a contextualized object detection task.
Object Detection는 context-free한 phrase grounding Task로 볼 수 있고 phrase grounding은 contextualized object detection task로 볼 수 있음.
따라서 저자들은 두 Task가 서로 비슷하기 때문에 결합한 GLIP모델에 2가지 시너지 효과가 생긴다고 주장함
1. 두 Task 성능 모두 개선되고 좋은 grounding 모델을 만들 수 있음
2. Self-training을 통해서 grounding box를 만들면서 image-text 쌍을 대량 생산
Object Level에 있어서 CLIP같은 모델이 필요해!
그림을 보면 알 수 있는 것처럼, zero-shot GLIP은 text정보를 더 풍부하게 줄수록 detection을 잘하는 것을 알 수 있음