Space-Time Memory Networks for Video Object Segmentation With User Guidance

Treeboy·2022년 12월 8일

Introduction

Video Object Segmentation 은 두가지 유형으로 나뉨

  1. semi-supervised

첫 프레임에 온전한 마스크가 주어지며, 이에 기반해 이후의 프레임을 처리. 첫 프레임만 어노테이션 하면 자동적으로 처리할 수 있지만, 그 어노테이션 조차도 힘들고 오류를 정정할 수가 없다는 단점이 있음.

  1. interactive

유저가 반복적으로 프레임을 선택하고 segmentation 지시를 내림. 이에 따라 알고리즘은 segmentation 을 개선함.

두 접근은 모두 segmentation 이 진행 되면서 참고 가능한 신호가 늘어남. 따라서, 학습-기반의 모델은 어떤 프레임에서 신호를 학습해야 하는가? 라는 문제를 직면하게 됨.

Semi-Supervised 의 경우, 이전의 프레임에서 추출한 features 를 전파해서 사용하는데, 이는 프레임의 변화를 잘 감지할 수 있지만 물체가 가려지는 현상에 대해 약한 모습을 보인다.

자연스럽게 우리는 더 많은 프레임을 segmentation 에 활용하는 것을 시도하게 된다. 저자들은 여러 프레임을 "memorize" 하는 망을 디자인 해 사용하려 한다. 이를 통해 propagation-driven problemonline training 을 최소화했다고 주장한다.

Related Work

Semi-Supervised Video Object Segmentation

  1. Propagation Based Methods

잘못 배치된 mask 를 정렬시켜주는 object mask propagator 를 학습시킴. 망을 객체 단위로 작용하게 하기 위해 첫 프레임에 deformation / image synthesis 를 활용함.

  1. Detection Based Methods

첫 프레임의 appearance 에 detector 을 학습시킴. Online learning 을 피하기 위해 픽셀을 feature space 로 임베딩 후 template matching 으로 분류함.

저자들이 제시한 망은 offline learning (

Interactive Video Object Segmentation

profile
지식이 모자라서 논문리뷰를...

0개의 댓글