다른 training datasets / 각 task의 tracking objects의 다름
때문에 서로 적용되기 어렵다.Unified Transformer Tracker(UTT)
제안 track transformer
SOT는 unseen categories의 object를 detect해야하기 떄문
검출된 상자(즉, 객체 감지 알고리즘에 의해 식별된 영역)
와 예측된 상자(즉, Siamese 추적기에 의해 예측된 영역)
사이의 유사성을 측정할 수 있음. 추적할 대상
은 reference frame
(예: 이미지 또는 비디오 프레임) 내에 있습니다. 추적 대상
에 대해, 우리는 이전 위치정보를 기반으로 한 작은 feature map proposal
을 tracking frame
에 제공합니다. feature map proposal
은 이미지 또는 비디오 프레임의 작은 부분을 나타내는 것으로, 이는 추적 대상의 위치를 더 정확하게 예측하는데 도움을 줍니다.target feature
는 feature map proposal
과 상관 관계를 가지며, target representation
을 업데이트하고 target position
를 출력합니다. target feature
는 새로운 search feature proposal
과 상관 관계를 가집니다. search feature proposal
은 생성된 target position
를 기반으로 자른 것입니다. correlation filter based method
Minimum Output Sum of Square Error(MOSSE) filter
Siamese Network based Trackers
Transformer
target feature
와 search feature
을 correlation attention 한다.object detection task
와 appearance embedding task
를 학습하였다. (association accuracy를 높이기 위해)이전 frame과의 offests
을 예측한다. learnable query features
와 이전 frames의 detected object features
간 cross attnetion을 씀.동기
Proposal decoder은 tracking frame에서의 Candidate Search Area
정보를 return (현재 object가 있을 법한 지역을 추린다.)
다른 tracking trasformer 와의 차별점
cross attention 대신, correlation attention이 쓰임
SOT 학습 시에는, proposal encoder을 학습에 이용했다.
3
4
5: IOU Loss + 1-norm Loss
initial candidate search areas
를 생성하기 위해, 우리는 proposal decoder을 사용하지 않았다. initial proposal
을 생성하였다.MOTA = 1 - (FP + FN + IDS) / GT
IDF1 = 2 * IDTP / (GT + Output)