Introduction
- VOS(Visual Object Segmentation)는 픽셀 단위로 객체 포함 여부를 확인하여 속도가 느리므로 실시간 tracking에 적합하지 않다.
- 본 논문에서는 SiamMask를 통해 tracking과 segmentation 두 가지 문제를 동시에 해결한다.
- 이를 위해 Siamese nework는 3가지의 task를 훈련한다.
- 슬라이딩 윈도우 방식으로 대상 객체와 여러 후보 지역 사이의 유사성을 측정한다.
output으로 dense response map가 나오며 object의 위치를 나타낸다.
- RPN(Region Proposal Network)을 사용한 bounding box regression 분석
- Class와 관계 없는 binary segmentation 작업
각각의 task는 공유된 CNN으로부터 branch 되어 뻗어나가며 세 output의 합을 최종적인 loss로 이용한다.
네트워크의 학습이 끝나면 첫 번째 feature map은 그대로 사용하며 두번째 feature map을 통해 제일 높은 correlation을 가지는 곳으로 bounding box가 이동한다.
Methodology
Fully-convolutional Siamese networks
1. SiamFC
- Object를 중심으로 w×h 크기로 crop한 z와 마지막으로 추정된 target을 더 큰 크기로 crop한 x
- 2개의 input이 동일한 CNN fθ를 통과하여 2개의 feature map을 형성
- 두 feature map의 유사도를 계산하여 dense response map Gθ 추출
- Response map의 각 spatial element를 ROW(response of a candidate window)라 하며 gθn는 n번째 ROW를 의미한다.
- 객체에 대해 더 많은 정보를 인코딩할 수 있도록 depth-wise cross-correlation으로 대체하여 multi-channel response map을 형성한다.
- SiamFC는 Logistic loss를 통해 훈련되며 Lsim으로 나타낸다.
2.Siam RPN
- 다양한 aspect ratio(각 ROW 당 k개의 anchor box)로 bounding box regression을 진행한다.
- Smooth L1을 통해 box prediction(Lbox)를 하며, cross-entropy loss를 통해 classification score(Lscore)를 추정한다.
SiamMask
- 간단한 두 개의 layer로 구성된 hϕ를 통해 w×h binary mask를 예측한다. (ROW 당 한 개)
- mn은 n번째 ROW의 predicted mask
1. Loss function
- ROWs의 binary logistic regression loss
- yn은 n번째 ROW의 ground-truth binary label (-1 or 1). Positive ROWs만 고려한다.
- cnij는 n번째 ROW의 (i,j) 픽셀의 binary label (-1 or 1)
2. Mask representation
- Depth-wise cross-correlation으로 형성된 (17x17) ROWs를 256,632 channels를 가진 2개의 1 x 1 convolution layers를 활용하여 segmentation task에 사용한다.
- 이로 인해 target과 유사한 인스턴스들과 명확하게 구별하는 mask를 만들 수 있다.
3. Two variants
- two-branch와 three-branch
- L2B: Lmask는 mask 영역, Lsim은 SiamFC에서 depth-wise cross correlation의 결과
- L3B: Lmask는 mask 영역, Lscore와 Lbox는 SiamRPN에서 classificationi 값과 bounding box값
- ROW는 IOU가 0.6 이상일 때 positive(yn = 1)로 분류된다.
- λ1=32, λ2=λ3=1
4. Box generation
3가지의 방법으로 segmentation mask로부터 bounding box를 그린다.
- Axis-aligned bounding rectangle(Min-max) – red
- Rotated minimum bounding rectangle(MBR) – green
- Optimization strategy used for the automatic bounding box generation – blue