
다른 training datasets / 각 task의 tracking objects의 다름 때문에 서로 적용되기 어렵다.Unified Transformer Tracker(UTT) 제안 track transformer
SOT는 unseen categories의 object를 detect해야하기 떄문검출된 상자(즉, 객체 감지 알고리즘에 의해 식별된 영역)와 예측된 상자(즉, Siamese 추적기에 의해 예측된 영역) 사이의 유사성을 측정할 수 있음. 
추적할 대상은 reference frame(예: 이미지 또는 비디오 프레임) 내에 있습니다. 추적 대상에 대해, 우리는 이전 위치정보를 기반으로 한 작은 feature map proposal을 tracking frame에 제공합니다. feature map proposal은 이미지 또는 비디오 프레임의 작은 부분을 나타내는 것으로, 이는 추적 대상의 위치를 더 정확하게 예측하는데 도움을 줍니다.target feature는 feature map proposal과 상관 관계를 가지며, target representation 을 업데이트하고 target position를 출력합니다. target feature는 새로운 search feature proposal과 상관 관계를 가집니다. search feature proposal은 생성된 target position를 기반으로 자른 것입니다. correlation filter based methodMinimum Output Sum of Square Error(MOSSE) filterSiamese Network based TrackersTransformertarget feature와 search feature을 correlation attention 한다.object detection task와 appearance embedding task를 학습하였다. (association accuracy를 높이기 위해)이전 frame과의 offests을 예측한다. learnable query features와 이전 frames의 detected object features간 cross attnetion을 씀.




동기
Proposal decoder은 tracking frame에서의 Candidate Search Area 정보를 return (현재 object가 있을 법한 지역을 추린다.)


다른 tracking trasformer 와의 차별점
cross attention 대신, correlation attention이 쓰임



SOT 학습 시에는, proposal encoder을 학습에 이용했다.

3
4
5: IOU Loss + 1-norm Loss
initial candidate search areas를 생성하기 위해, 우리는 proposal decoder을 사용하지 않았다. initial proposal을 생성하였다.

MOTA = 1 - (FP + FN + IDS) / GTIDF1 = 2 * IDTP / (GT + Output)