[논문 리뷰] SaimMask: Fast Online Object Tracking and Segmentation: A Unifying Approach

김경준·2021년 7월 11일

Paper Siam tracking

0

논문

목록 보기

6/37

Introduction

VOS(Visual Object Segmentation)는 픽셀 단위로 객체 포함 여부를 확인하여 속도가 느리므로 실시간 tracking에 적합하지 않다.
본 논문에서는 SiamMask를 통해 tracking과 segmentation 두 가지 문제를 동시에 해결한다.
이를 위해 Siamese nework는 3가지의 task를 훈련한다.

슬라이딩 윈도우 방식으로 대상 객체와 여러 후보 지역 사이의 유사성을 측정한다.
output으로 dense response map가 나오며 object의 위치를 나타낸다.

RPN(Region Proposal Network)을 사용한 bounding box regression 분석

Class와 관계 없는 binary segmentation 작업

각각의 task는 공유된 CNN으로부터 branch 되어 뻗어나가며 세 output의 합을 최종적인 loss로 이용한다.

네트워크의 학습이 끝나면 첫 번째 feature map은 그대로 사용하며 두번째 feature map을 통해 제일 높은 correlation을 가지는 곳으로 bounding box가 이동한다.

Methodology

Fully-convolutional Siamese networks

1. SiamFC

Object를 중심으로 $w \times h$ 크기로 crop한 $z$ 와 마지막으로 추정된 target을 더 큰 크기로 crop한 $x$
2개의 input이 동일한 CNN $f_{\theta}$ 를 통과하여 2개의 feature map을 형성
두 feature map의 유사도를 계산하여 dense response map $G_{\theta}$ 추출
Response map의 각 spatial element를 ROW(response of a candidate window)라 하며 $g^n_{\theta}$ 는 n번째 ROW를 의미한다.
객체에 대해 더 많은 정보를 인코딩할 수 있도록 depth-wise cross-correlation으로 대체하여 multi-channel response map을 형성한다.
SiamFC는 Logistic loss를 통해 훈련되며 $L_{sim}$ 으로 나타낸다.

2.Siam RPN

다양한 aspect ratio(각 ROW 당 k개의 anchor box)로 bounding box regression을 진행한다.
Smooth L1을 통해 box prediction( $L_{box}$ )를 하며, cross-entropy loss를 통해 classification score( $L_{score}$ )를 추정한다.

SiamMask

간단한 두 개의 layer로 구성된 $h_{\phi}$ 를 통해 $w \times h$ binary mask를 예측한다. (ROW 당 한 개)
$m_n$ 은 n번째 ROW의 predicted mask

1. Loss function

ROWs의 binary logistic regression loss
$y_n$ 은 n번째 ROW의 ground-truth binary label (-1 or 1). Positive ROWs만 고려한다.
$c_n^{ij}$ 는 n번째 ROW의 ( $i, j$ ) 픽셀의 binary label (-1 or 1)

2. Mask representation

Depth-wise cross-correlation으로 형성된 (17x17) ROWs를 $256, 63^2$ channels를 가진 2개의 1 x 1 convolution layers를 활용하여 segmentation task에 사용한다.
이로 인해 target과 유사한 인스턴스들과 명확하게 구별하는 mask를 만들 수 있다.

3. Two variants

two-branch와 three-branch
$L_{2B}$ : $L_{mask}$ 는 mask 영역, $L_{sim}$ 은 SiamFC에서 depth-wise cross correlation의 결과
$L_{3B}$ : $L_{mask}$ 는 mask 영역, $L_{score}$ 와 $L_{box}$ 는 SiamRPN에서 classificationi 값과 bounding box값
ROW는 IOU가 0.6 이상일 때 positive( $y_n$ = 1)로 분류된다.
$\lambda 1 = 32,$ $\lambda 2 = \lambda 3 = 1$

4. Box generation

3가지의 방법으로 segmentation mask로부터 bounding box를 그린다.

Axis-aligned bounding rectangle(Min-max) – red

Rotated minimum bounding rectangle(MBR) – green

Optimization strategy used for the automatic bounding box generation – blue

이전 포스트

[논문리뷰] R-CNN: Rich feature hierarchies for accurate object detection and semantic segmentation

다음 포스트

[논문 리뷰] EfficientDet: Scalable and Efficient Object Detection

0개의 댓글

관련 채용 정보