Hierarchical Open-vocabulary Universal Image Segmentation [NeurIPS 2023]

wonnie1224·2024년 10월 21일
0

논문 리뷰

목록 보기
12/16

논문 원문 링크 : https://arxiv.org/abs/2307.00764

Abstract

  • Open-vocabulary image segmentation : 임의의 텍스트 설명에 따라 이미지를 의미론적 영역으로 분할하는 것을 목표
  • 그러나 복잡한 시각적 장면은 자연스럽게 더 단순한 부분으로 분해될 수 있고 다양한 수준의 세분성(granularity)으로 추상화될 수 있어, 내재적인 분할 모호성이 발생
  • 기존 방법들은 일반적으로 이러한 모호성을 외부 요인으로 간주하고 회피하는 반면, 우리의 접근법은 다양한 의미적 수준을 포함하는 계층적 표현(hierarchical representation)을 학습 과정에 적극적으로 통합
  • 우리는 “사물(things)”과 “배경(stuff)”에 대해 각각의 representation learning module과 decoupled text-image fusion mechanism을 제안
  • 추가로, 이러한 카테고리 간의 textual & visual feature의 차이를 체계적으로 조사함
    => 결과적으로, HIPIE라는 모델이 탄생; Hierarchical(계층적), Open-vocabulary, Universal(범용적) segmentation 작업을 단일 프레임워크에서 해결
  • ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW, SeginW 등의 40개 이상의 데이터셋에서 벤치마크된 HIPIE는 semantic-level (e.g., semantic segmentation), instance-level (e.g.,panoptic/referring segmentation and object detection), as well as part-level (e.g.,part/subpart segmentation) tasks를 포함한 다양한 수준의 이미지 이해에서 SOTA 달성

Motivation

  • NO single “correct” way to segment an image !
  • scene은 다양한 level으로 세분화시켜 분할 가능 → 모호성
  • 기존 방법들은 모호성을 외부 요인으로 간주
  • 다양한 semantic-level을 포함하는 hierarchical representation을 학습 과정에 통합
  • HIPIE 모델 : HIerarchical, oPen-vocabulary, and unIvErsal segmentation task를 하나의 프레임워크에서 해결

Related Works

Parts Segmentation

  • 인스턴스를 더 세분화된 fine-grained mask로 분할
  • PPP(Part-aware panoptic segmentation) : image에서 scene level panoptic segmentation + part-level segementation 2가지 모델 합침

Comparison with Previous Work

  • HIPIE는 single unified framework에서 open-vocabulary universal image segmentation & detection을 수행하는 유일한 method임

Method

Overall Framework

  • 이미지와 임의의 텍스트 description 세트를 입력받아 hierarchical semantic, instance, part, and subpart-level image segmentations 수행함
  • open-vocabulary semantic (e.g., crowds and sky), instance/panoptic (e.g., person and cat), part (e.g., head and torso), subpart (e.g.,ear and nose) and referring expression (e.g., umbrella with a white pole) masks로 segmentation되는 것임
  • HIPIE는 이러한 작업에서 세분성이나 작업의 특수성에 관계없이 이전 방법들을 능가하며, 새로운 최첨단 성과(SOTA)를 기록함
  • HIPIE + SAM과 원활하게 통합되어 SA-1B에서 클래스 인식 이미지 분할을 가능하게 함

HIPIE 모델의 3가지 주요 구성 요소









Hierarchical segmentation

인스턴스 수준의 분할 외에도, part 인식 계층적 분할을 수행할 수 있습니다.

  • concatenate the instance class names and part class names as labels을 라벨로 결합합니다. ex) "human ear", "cat head"
  • 학습 과정에서, 우리는 part labels & instance label을 사용하여 classification head를 supervise함
  • 추론 중에는 동일한 이미지를 사용하지만 다른 프롬프트를 통해 두 번의 별도 forward 패스를 수행하여 instance and part segmentation을 생성
  • 동일한 이미지에서 parts segmentation과 instance segmentation을 결합하여 part-aware(인식) instance segmentation을 얻음
  • 계층 구조의 레이어는 part들을 그룹화함으로써 얻어짐
    e.g) "머리"는 귀, 머리카락, 눈, 코 등의 part들로 구성

4. Experiments

Panoptic Segmentation

  • closed-set의 경우 MSCOCO에서, open-set zero shot transfer learning의 경우 ADE20K에서 Panoptic Quality(PQ) 성능을 테스트함
  • 표 4에 따르면 우리 모델은 ViT-H backbone을 사용하는 이전의 close-set SOTA 모델보다 +1.8의 성능
  • ODISE보다 더 많은 task에서 실행할 수 있고 백본이 더 단순하면서도 최고의 오픈 세트 PQ 결과와 일치합니다.

Appendix

List of datasets

"benchmarking"은 특정 모델의 성능을 여러 데이터셋이나 기준에 따라 측정하고, 그 결과를 통해 모델의 강점이나 약점을 파악하는 과정

  • 대략 70개의 dataset에 대해 HIPIE 모델 벤치마킹함
  • 모델이 다양한 상황에 적응할 수 있으며, 제로샷 방식에서도 합리적인 성능을 유지할 수 있음을 보여줌

Hierarchical segmentation

  • 다른 hierarchial seg 방법들과 어떻게 차별화했는가?
  • 서로 다른 계층의 클래스 이름들을 프롬프트로 이어 붙임
  • 학습 과정에서, 우리는 mask embedding을 scene-level & part-level 레이블 둘다와 명시적으로 contrast 시킴
  • UNINEXT와 ODISE와 같은 기존 연구들은 이러한 클래스들을 단순한 여러 단어로 된 라벨(normal multi-word labels)로 취급
  • UNINEXT는 BERT 인코더 설계 덕분에 개별 단어들을 서로 대비시키는 것이 가능하지만, 이는 최적보다 못한 신호(suboptimal signals)를 초래
  • 위 예시에서 'person head'는 'person'에 대해 positive target & negative target을 동시에 가지게 됨

Experiment Setup

Model Learning Settings

  1. Objects365에 340k iter, batch size=64 로 pre-train
  2. finetuning : COCO, RefCOCO, RefCOCOg, RefCOCO+ 에다가 jointly 120k iter
    part segmentation에 대해선, 앞선 데이터셋들 + 추가적으로 Pascal-Panoptic-Parts 데이터셋도 함께 jointly train함

open-vocabulary segmentation evaluation에 사용된 Pascal-Panoptic-Parts와 다른 Pascal dataset 간의 data leak 가능성이 있기 때문에, Pascal-Panoptic-Parts dataset에 학습되지 않은 가중치를 이용하여 평가함.
계층적 설계로 인해, 우리 모델은 다음과 같이 더 나은 품질의 mask를 생성함

  • 특히, HIPIE는 기존의 part segmentation dataset들에 존재하지 않는 새로운 계층 구조로 일반화할 수 있음

Training Process

평가지표

⇒ 여기서도 평가지표는 결국 mIoU 씀

profile
안녕하세요😊 컴퓨터비전을 공부하고 있는 대학원생입니다 🙌

0개의 댓글