computational cost와 memory consumption을 비교적 적게 사용
하는, 효과적인 VideoMAE scaling 방법을 제안학습 단계에서 GPU/memory 의 과한소모
를 줄이기 위해, dual masking 기법
을 제안Kinetics + General Webs + Youtube + Instagram + Movies 등의 소스 활용
굉장히 작은 small dataset을 가지고 finetuning 하는 것은 sub-optimal
할 것이라고 주장.여기서 얻을 수 있는 교훈
비디오 분할 (Segmentation):
긴 비디오를 총 K개의 동일한 길이의 구간(segments)으로 나눕니다. 예를 들어, 비디오가 L개의 프레임으로 구성되어 있다면, 각 구간의 길이는 약 L/K 프레임이 됩니다.
스니펫 추출 (Snippet Extraction):
각 구간에서 하나의 스니펫(snippet)을 선택합니다. 스니펫은 단일 프레임일 수도 있고, 짧은 연속 프레임(예: 5프레임)일 수도 있습니다.
학습 단계에서는 보통 각 구간 내에서 랜덤하게 (randomly) 선택하여 다양한 temporal 변화를 학습하도록 하고,
테스트 단계에서는 보통 구간의 중앙값을 선택하는 방식(중심 샘플링)을 사용할 수 있습니다.
Uniform Sampling의 장점: