[논문리뷰] GLIP (Grounded Language-Image Pre-training)

Juheon Oh·2023년 2월 14일
0

Paper: GLIP

GLIP모델은 멀티모달 정보를 이용해서 Detection Task에 사용됨
진행했던 프로젝트에 적용 가능한지 궁금해서 리뷰

한줄 요약


CLIP에 Motivated 받아 Grounded Data를 활용해 Mutli-Modal Concept을 Object Detection Task에 적용함
Deploy Cost도 낮추고 새로운 Detection Task에 적용해도 성능이 좋음

Key-word


  • Multi-Modal
  • Grounded Data (Image + Text 형태인 데이터를 의미)
  • Deploy Cost
  • Zero-shot
  • Phrase Grounding
  • Deep Fusion Model

Phrase Grounding

Given an image and a corresponding caption, the Phrase Grounding task aims to ground each entity mentioned by a noun phrase in the caption to a region in the image.

이미지와 그에 대한 설명이 주어졌을 때, 설명에 나와있는 단어와 그에 해당하는 부분을 localize하는 Task

Unify Object Detection & Phrase Grounding

Object detection can be cast as context-free phrase grounding while phrase grounding can be viewed as a contextualized object detection task.

Object Detection는 context-free한 phrase grounding Task로 볼 수 있고 phrase grounding은 contextualized object detection task로 볼 수 있음.
따라서 저자들은 두 Task가 서로 비슷하기 때문에 결합한 GLIP모델에 2가지 시너지 효과가 생긴다고 주장함
1. 두 Task 성능 모두 개선되고 좋은 grounding 모델을 만들 수 있음
2. Self-training을 통해서 grounding box를 만들면서 image-text 쌍을 대량 생산

기존 방법론들의 한계


  • Visual recognition model은 고정된 데이터셋으로 학습되기 때문에 real-world 데이터, 새로운 Task 그리고 Domain에 사용되려면 레이블+데이터가 추가적으로 필요
  • Image-Text Pair 데이터 대량 학습한 CLIP이 위 문제를 해결했지만, Image Classification, Text-image retrieval Task에만 적용 가능했다.

Motivation


Object Level에 있어서 CLIP같은 모델이 필요해!

Idea


  • Phrase Grounding를 Object Detection Task에 적용해보자
  • Multi-modal 정보를 Detection에도 활용

저자들이 집중한 점


  • Grounded Data가 Language-Aware, Sematic-Rich하다는 점을 실험 결과를 통해서 증명하고자 함.
  • 적은 Cost로도 Novel Task에도 좋은 성능을 낸다는 점을 증명 (zero-shot)

Feature

zero-shot


그림을 보면 알 수 있는 것처럼, zero-shot GLIP은 text정보를 더 풍부하게 줄수록 detection을 잘하는 것을 알 수 있음

내 생각

  • Multi-Modal 컨셉이 Detection Task에 확장되고 성능도 좋다는 점이 매우 인상적
  • CLIP과 다르게 Deep Fusion Model이라는 컨셉을 사용했고 성능도 좋아서 신기함
  • Multi-Modal 컨셉 자체가 신기하고 왜 잘 되는지에 대해서 좀 더 공부해보고 싶음
  • 자신들의 모델이 좋다고 설득하는 과정이 굉장히 논리적이라서 인상적이
  • 앞으로 더 다양한 Task에 Multi-Modal 모델들이 등장할 것 같음

0개의 댓글