small temporal widnow
(예: 3초 동안의 풋살 이미지)에 대한 공간 정보를 추출 -> 하나의 token embedding으로 출력small temporal widnow
(예: 3초 동안의 풋살 득점 이미지)를 a1, a2 두가지 data agumentation 분포에 통과시켜, 2개의 augmented positive data input을 만듭니다.라벨이 없는 비디오 데이터를 활용
하여 트랜스포머의 초기화에 관련된 도전을 해결knowledge distillation로 프리트레이닝을 하는 것의 이점에 대한 종합적인 분석을 제공
공간적-시간적 트랜스포머를 초기화하는 파이프라인
knowledge distillation
하여 공간적/시간적 트랜스포머를 초기화네트워크를 초기화하는 강력한 도구
네트워크가 어떻게 얻어지고 전달에 사용되는 손실에 따라,
KD는 SL [53] 또는 SSL [22]로 간주될 수 있음our global model is pretrained with a KD loss from an extracted bank of features aligned with all the output tokens.
This KD-loss leverages temporal masking and soft contrastive learning to maintain local-temporal information enriched in a global context.
비디오나 시퀀스 데이터의 세부적인 지역-시간적 정보를 전체적인 맥락에서 효과적으로 파악하도록
KD에서는 교사 모델의 출력을 "소프트 타깃"으로 사용하여, 학생 모델이 이를 모방하도록 합니다.