[논문 리뷰] SaimMask: Fast Online Object Tracking and Segmentation: A Unifying Approach

김경준·2021년 7월 11일
0

논문

목록 보기
6/37
post-thumbnail

Introduction

  • VOS(Visual Object Segmentation)는 픽셀 단위로 객체 포함 여부를 확인하여 속도가 느리므로 실시간 tracking에 적합하지 않다.
  • 본 논문에서는 SiamMask를 통해 tracking과 segmentation 두 가지 문제를 동시에 해결한다.
  • 이를 위해 Siamese nework는 3가지의 task를 훈련한다.
  1. 슬라이딩 윈도우 방식으로 대상 객체와 여러 후보 지역 사이의 유사성을 측정한다.
    output으로 dense response map가 나오며 object의 위치를 나타낸다.
  2. RPN(Region Proposal Network)을 사용한 bounding box regression 분석
  3. Class와 관계 없는 binary segmentation 작업

각각의 task는 공유된 CNN으로부터 branch 되어 뻗어나가며 세 output의 합을 최종적인 loss로 이용한다.

네트워크의 학습이 끝나면 첫 번째 feature map은 그대로 사용하며 두번째 feature map을 통해 제일 높은 correlation을 가지는 곳으로 bounding box가 이동한다.

Methodology

Fully-convolutional Siamese networks

1. SiamFC

  • Object를 중심으로 w×hw \times h 크기로 crop한 zz와 마지막으로 추정된 target을 더 큰 크기로 crop한 xx
  • 2개의 input이 동일한 CNN fθf_{\theta}를 통과하여 2개의 feature map을 형성
  • 두 feature map의 유사도를 계산하여 dense response map GθG_{\theta} 추출
  • Response map의 각 spatial element를 ROW(response of a candidate window)라 하며 gθng^n_{\theta}는 n번째 ROW를 의미한다.
  • 객체에 대해 더 많은 정보를 인코딩할 수 있도록 depth-wise cross-correlation으로 대체하여 multi-channel response map을 형성한다.
  • SiamFC는 Logistic loss를 통해 훈련되며 LsimL_{sim}으로 나타낸다.

2.Siam RPN

  • 다양한 aspect ratio(각 ROW 당 k개의 anchor box)로 bounding box regression을 진행한다.
  • Smooth L1을 통해 box prediction(LboxL_{box})를 하며, cross-entropy loss를 통해 classification score(LscoreL_{score})를 추정한다.

SiamMask

  • 간단한 두 개의 layer로 구성된 hϕh_{\phi}를 통해 w×hw \times h binary mask를 예측한다. (ROW 당 한 개)
  • mnm_n은 n번째 ROW의 predicted mask

1. Loss function

  • ROWs의 binary logistic regression loss
  • yny_n은 n번째 ROW의 ground-truth binary label (-1 or 1). Positive ROWs만 고려한다.
  • cnijc_n^{ij}는 n번째 ROW의 (i,ji, j) 픽셀의 binary label (-1 or 1)

2. Mask representation

  • Depth-wise cross-correlation으로 형성된 (17x17) ROWs를 256,632256, 63^2 channels를 가진 2개의 1 x 1 convolution layers를 활용하여 segmentation task에 사용한다.
  • 이로 인해 target과 유사한 인스턴스들과 명확하게 구별하는 mask를 만들 수 있다.

3. Two variants

  • two-branch와 three-branch
  • L2BL_{2B}: LmaskL_{mask}는 mask 영역, LsimL_{sim}은 SiamFC에서 depth-wise cross correlation의 결과
  • L3BL_{3B}: LmaskL_{mask}는 mask 영역, LscoreL_{score}LboxL_{box}는 SiamRPN에서 classificationi 값과 bounding box값
  • ROW는 IOU가 0.6 이상일 때 positive(yny_n = 1)로 분류된다.
  • λ1=32,\lambda 1 = 32, λ2=λ3=1\lambda 2 = \lambda 3 = 1

4. Box generation


3가지의 방법으로 segmentation mask로부터 bounding box를 그린다.

  1. Axis-aligned bounding rectangle(Min-max) – red
  2. Rotated minimum bounding rectangle(MBR) – green
  3. Optimization strategy used for the automatic bounding box generation – blue

0개의 댓글