세부적인 크기에서 점진적으로 샘플링하는 bottleneck-based attention model
Temporal Progressive (TemPr) 모델은 각각 한 스케일에 대한 여러 어텐션 타워로 구성
Early action prediction (EAP)는 비디오의 시작 부분만 부분적으로 관찰하여 해당 비디오에 대한 행동 레이블을 추론하는 작업임
direct matching 가설: 행동은 공통 패턴을 통해 인지된다
그래서 부분적으로 관찰되는 비디오 모델링 하는 TemPr를 제안함
(i) EAP를 위한 미세한 시간적 샘플링 접근법
(ii) 트랜스포머 타워를 사용하여 차별적인 표현을 캡처, 타워 예측을 집계
(iii) 우리는 네 개의 비디오 데이터셋인 UCF-101, EPIC-KITCHENS, NTU-RGB 및 Something-Something (sub-21 & v2)에서 우리의 접근법의 효과를 평가하며, 이전 연구를 일관되게 능가함