시간에 걸쳐 visual correspondence를 self supervied manner로 해결한 연구이다. 기존의 많은 연구들이 contrastive learning을 활용한 경우가 많은데 extensive augmentation이 필요한 단점이 있다. 본 논문은 predictive learning의 방식을 따른다.
기존의 MAE를 video로 확장하는데 1. pixel reconstruction에 targeted된 문제 2. temporal dimension을 고려하지 못하는 문제가 존재한다. 저자들은 low level image detail에 낭비하고 있다고 보고 새로운 방법을 제시한다.
먼저 video에서 일정 시간 내에 있는 2개의 frame을 random sampling 한다. 이때 앞 선 frame은 원본으로 이후의 frame은 95% 가량 patch 단위로 마스킹한다.(video에서는 spatial, spatio temporal 중복이 높기에 가능한 수치) ViT를 나란히 새운 Siamese 구조로 Encoder를 구성한다.
Decoder의 경우 cross self decoder(cross attention, self attention)와 cross decoder(cross attention only) 구조를 비교한다.
Video Object Segmentation task에서 Dino, VideoMAE등을 앞선다. 특히 VideoMAE를 앞 서는 이유를 video는 isotropic하기에 temporal dimension은 image와 다르게 다뤄져야 한다고 분석한다.
Video Part Segmentation 에서는 기존의 contrastive learning 방식 및 ssl 방식들을 앞지른다.
Pose Tracking 에서도 동일하다.
FrameMAE 은 masking ratio가 높거나 낮으면 성능저하가 존재하고 temporal 정보를 잘 학습하지 못하는 것으로 판단된다.
encoder에서는 joint보다 siam이 decoder는 cross self 가 가장 좋은 성능을 보인다.
siam이 더 좋은 이유가 test에서 독립적으로 frame을 처리하기 때문이라는 말이 잘 이해가 안 된다.
decoder의 경우 cross self 즉 self attention 까지 한 것이 더 좋다.
augmentation과 frame gap에 대해서도 ablation study를 진행한다.
MAE를 temporal information을 Self supervised manner로 학습 시킬 수 있도록 확장하였다. 이를 실험을 통해 Temporal한 정보를 잘 학습함을 입증했다.
random sampling 하는 그 시간 간격에 대해서 실험을 통해 보였는데 간격이 멀어지면 학습이 어려울 것으로 판단되고 task마다 적당한 gap이 달라질 것이라 판단된다.
Multiple Frame에 대해서 시도하지 못한 점과 Dataset의 확장 가능성이 남아있다.