Video VisionTransformer
MAE를 Video ViT에 적용함으로써, 비디오 데이터로부터 scratch 부터 학습시키는 것을 가능하게 했음
self supervised learning
데이터의 quantity보다, quality가 더 중요하다.
Temporal redundancy
Temporal correlation