90-95% 정도
pixel cube masking
을 진행하여 input으로 주고, 마스킹된 픽셀들을 복원하는 방식. (라벨이 없는 비디오 데이터셋으로 학습하는 방법)720 by 1080
이미지 원본을 -> 256 by 384
~ 320 by 480
로 리사이징 한 후 -> 리사이징 이미지를 224 by 224 로 crop(좌 or 중앙 or 우 영역)해서 최종적으로 인풋으로 활용함이미지(예: ImageNet)로 사전 학습된 ViT
를 기반으로 학습해야, 성능이 어느정도 나온다는 문제점이 있었음Video Vision Transformer
을 scratch 방식으로 학습할 수 있는 연구가 필요했음!MAE를 Video ViT에 적용함으로써, 적은 비디오 데이터로부터 scratch 부터 학습시키는 것을 가능하게 했음
(3000~4000개 비디오로 도 충분했다)self supervised learning
적용함3000 ~ 4000 개의 비디오 클립 만으로도 유의미한 성과
를 냈습니다.데이터가 실제로 모델이 학습해야 하는 다운스트림 태스크와 얼마나 밀접하게 연관되어 있는지
, 혹은 데이터가 얼마나 정보량이 풍부하고 노이즈가 적은지를 의미Kinetics-400
데이터셋으로 엄청난 양으로 SSVP를 해도, Something-Something V2 다운스트림 테스크에서는 잘 작동하지 않을 수 있다는 의미"Strided temporal sampling strategy"
Formally, one video clip consisting of t consecutive frames is first randomly sampled from the original video V .
We then use temporal sampling to compress the clip to T frames, each
of which contains H × W × 3 pixels.
In experiments, the stride τ is set to 4 and 2 on Kinetics and Something-Something, respectively
Temporal redundancy
Temporal correlation
연속적인 64 frame(2.56초) 길이 짜리 view(클립)
)연속적인 32frame (2.66초) 길이 짜리 view(클립)
uniform(sparse) sampling
비디오 분할 (Segmentation):
긴 비디오를 총 K개의 동일한 길이의 구간(segments)으로 나눕니다. 예를 들어, 비디오가 L개의 프레임으로 구성되어 있다면, 각 구간의 길이는 약 L/K 프레임이 됩니다.
스니펫 추출 (Snippet Extraction):
각 구간에서 하나의 스니펫(snippet)을 선택합니다. 스니펫은 단일 프레임일 수도 있고, 짧은 연속 프레임(예: 5프레임)일 수도 있습니다.
학습 단계에서는 보통 각 구간 내에서 랜덤하게 (randomly) 선택하여 다양한 temporal 변화를 학습하도록 하고,
테스트 단계에서는 보통 구간의 중앙값을 선택하는 방식(중심 샘플링)을 사용할 수 있습니다.
Uniform Sampling의 장점:
위 샘플링한 것들을 network input으로 넣어줍니다.
Multiscale Vision Transformers 를 따라 했다고 함