Video Object Segmentation 은 두가지 유형으로 나뉨
첫 프레임에 온전한 마스크가 주어지며, 이에 기반해 이후의 프레임을 처리. 첫 프레임만 어노테이션 하면 자동적으로 처리할 수 있지만, 그 어노테이션 조차도 힘들고 오류를 정정할 수가 없다는 단점이 있음.
유저가 반복적으로 프레임을 선택하고 segmentation 지시를 내림. 이에 따라 알고리즘은 segmentation 을 개선함.
두 접근은 모두 segmentation 이 진행 되면서 참고 가능한 신호가 늘어남. 따라서, 학습-기반의 모델은 어떤 프레임에서 신호를 학습해야 하는가? 라는 문제를 직면하게 됨.
Semi-Supervised 의 경우, 이전의 프레임에서 추출한 features 를 전파해서 사용하는데, 이는 프레임의 변화를 잘 감지할 수 있지만 물체가 가려지는 현상에 대해 약한 모습을 보인다.
자연스럽게 우리는 더 많은 프레임을 segmentation 에 활용하는 것을 시도하게 된다. 저자들은 여러 프레임을 "memorize" 하는 망을 디자인 해 사용하려 한다. 이를 통해 propagation-driven problem 과 online training 을 최소화했다고 주장한다.
잘못 배치된 mask 를 정렬시켜주는 object mask propagator 를 학습시킴. 망을 객체 단위로 작용하게 하기 위해 첫 프레임에 deformation / image synthesis 를 활용함.
첫 프레임의 appearance 에 detector 을 학습시킴. Online learning 을 피하기 위해 픽셀을 feature space 로 임베딩 후 template matching 으로 분류함.
저자들이 제시한 망은 offline learning (