Instance/Panoptic Segmentation

Heath_Jeong·2021년 3월 11일

Computer Vision

Ustage Week7 - Computer Vision

목록 보기

9/12

Instance Segmentation

개념

Semantic Segmentation 과 달리 같은 물체라도 다른 객체라면 다르게 구분해준다.

Semantic segmentation + Distinguishing instances

Mask R-CNN 방법

Mask-RCNN = Faster R-CNN + Mask branch
(Two-stage 구조)

Faster R-CNN 에서는 RoI Pooling 을 사용했다면
Mask R-CNN 는 RoI Align 을 사용해서 소수점을 처리할 수 있다.
Semantic segmentation 에서는 물체의 위치 주변에 박스만 치면 됐지만 이제는 물체에 대한 정확한 위치를 추려내야 하기 때문에 사용한다.

마스크 브랜치는 각 클래스 별로 바이너리 마스크를 prediction 하는 구조를 갖고 있다.

네트워크를 거쳐 나온 class 를 통해 전체 마스크 중 어떤 마스크를 선택할지 고른다.

아래 그림은 80 개의 클래스가 있다.

YOLACT (You Only Look At CoefficienTs)

실시간으로 semantic segmentation 이 가능한 Single-stage 네트워크이다.

Feature Pyramid

Feature Pyramid 구조를 통해 고해상도의 feature map 을 사용할 수 있다. (Skip connection)

프로토타입

마스크의 프로토타입을 사용한다.
Mask R-CNN 에서는 각각 독립적인 마스크를 한 번에 생성했다면
프로토타입은 마스크는 아니지만 마스크를 합성해낼 수 있는 기본적인 component 를 통해 추후에 마스크를 만들어낸다.

각 마스크를 바로 만드는 방법보다 효율적이다.

Prediction Head

prediction head 는 프로토타입을 잘 합성하기 위한 계수 (coefficients) 를 출력한다.
계수와 프로토넷은 선형결합되어 각 detection 에 적합한 마스크를 생성한다.

YolactEdge 방법

엣지 디바이스에 올릴 수 있을 정도로 가볍게 만들기 위해 제안되었다.
이전 프레임 중 키프레임에 해당하는 프레임 피쳐를 다음 프레임에 전달해서 피쳐맵의 계산량을 줄였다.

하지만 마스크가 깜빡 거리거나 떨리는 성능 문제가 있어 더 연구돼야 한다.

Panoptic Segmentation

Instance Segmentation 은 배경에는 관심이 없고 움직이는 물체 (사람, 차 등) 만 감지했다면, Panoptic Segmentation 은 물체와 더불어 배경까지 감지한다. (Stuff + Instance of Things)

UPS 모델

FPN 구조를 사용하여 고해상도의 피쳐맵을 뽑아내고
헤드 브랜치를 여러 개로 나눈다.

Semantic Head 는 Fully Convolution 구조로 Semantic map 을 prediction 한다. (배경과 물체인지 구분)
Instance Head 는 물체의 detection, box regression, 마스크를 추출한다. (물체에 대해 박싱)
Panoptic Head 는 위 두 결과를 하나의 Segmentation map 으로 합쳐준다.

Semantic Head 는 물체를 구분하는 thing 과 배경을 구분하는 stuff 마스크들이 있다.
stuff 마스크는 바로 최종 출력 (panotic) 으로 가고 thing 마스크는 instance 마스크와 더해져서 (해당 박스가 물체인지 알 수 있게 함) 최종 출력으로 간다.
thing 마스크 전체 (전체 물체 맵) 에서 가장 뚜렷한 물체 부분을 뺀 일종의 배경에 대한 정보를 한 층으로 최종 출력에 붙인다.

VPSNet 방법

panoptic segmentation 구조를 video 로 확장하였다.

Align reference features onto the target feature map (Fusion at pixel level)

시간 차를 갖는 두 영상 사이에 파이라는 모션맵을 사용해서 각 프레임에 나온 피쳐맵을 모션에 따라 매핑한다.
(모션맵은 시간 차가 있는 두 영상에서 움직임이 어떻게 변화는지 파악한다.)
t- $\tau$ 에서 뽑힌 피쳐이지만 t 에서 뽑은 것처럼 옮겨준다. 이 것과 원래 t 에서 뽑은 피쳐를 합쳐준다.
여러 피쳐의 특징을 합쳐 씀으로써 시간 연속적으로 더 스무스하게 segmentation 이 가능하다.