[논문리뷰] GLIP (Grounded Language-Image Pre-training)

Juheon Oh·2023년 2월 14일

Paper: GLIP

GLIP모델은 멀티모달 정보를 이용해서 Detection Task에 사용됨
진행했던 프로젝트에 적용 가능한지 궁금해서 리뷰

한줄 요약

CLIP에 Motivated 받아 Grounded Data를 활용해 Mutli-Modal Concept을 Object Detection Task에 적용함
Deploy Cost도 낮추고 새로운 Detection Task에 적용해도 성능이 좋음

Key-word

Multi-Modal
Grounded Data (Image + Text 형태인 데이터를 의미)
Deploy Cost
Zero-shot
Phrase Grounding
Deep Fusion Model

Phrase Grounding

Given an image and a corresponding caption, the Phrase Grounding task aims to ground each entity mentioned by a noun phrase in the caption to a region in the image.

이미지와 그에 대한 설명이 주어졌을 때, 설명에 나와있는 단어와 그에 해당하는 부분을 localize하는 Task

Unify Object Detection & Phrase Grounding

Object detection can be cast as context-free phrase grounding while phrase grounding can be viewed as a contextualized object detection task.

Object Detection는 context-free한 phrase grounding Task로 볼 수 있고 phrase grounding은 contextualized object detection task로 볼 수 있음.
따라서 저자들은 두 Task가 서로 비슷하기 때문에 결합한 GLIP모델에 2가지 시너지 효과가 생긴다고 주장함
1. 두 Task 성능 모두 개선되고 좋은 grounding 모델을 만들 수 있음
2. Self-training을 통해서 grounding box를 만들면서 image-text 쌍을 대량 생산

기존 방법론들의 한계

Visual recognition model은 고정된 데이터셋으로 학습되기 때문에 real-world 데이터, 새로운 Task 그리고 Domain에 사용되려면 레이블+데이터가 추가적으로 필요
Image-Text Pair 데이터 대량 학습한 CLIP이 위 문제를 해결했지만, Image Classification, Text-image retrieval Task에만 적용 가능했다.

Motivation

Object Level에 있어서 CLIP같은 모델이 필요해!

Idea

Phrase Grounding를 Object Detection Task에 적용해보자
Multi-modal 정보를 Detection에도 활용

저자들이 집중한 점

Grounded Data가 Language-Aware, Sematic-Rich하다는 점을 실험 결과를 통해서 증명하고자 함.
적은 Cost로도 Novel Task에도 좋은 성능을 낸다는 점을 증명 (zero-shot)

Feature

zero-shot

그림을 보면 알 수 있는 것처럼, zero-shot GLIP은 text정보를 더 풍부하게 줄수록 detection을 잘하는 것을 알 수 있음

내 생각

Multi-Modal 컨셉이 Detection Task에 확장되고 성능도 좋다는 점이 매우 인상적
CLIP과 다르게 Deep Fusion Model이라는 컨셉을 사용했고 성능도 좋아서 신기함
Multi-Modal 컨셉 자체가 신기하고 왜 잘 되는지에 대해서 좀 더 공부해보고 싶음
자신들의 모델이 좋다고 설득하는 과정이 굉장히 논리적이라서 인상적이
앞으로 더 다양한 Task에 Multi-Modal 모델들이 등장할 것 같음

Juheon Oh

OJH

이전 포스트

linux/arm64 환경에서 Airflow Docker 이미지 구축 시 발생되는 이슈

다음 포스트