FSA.log
로그인
FSA.log
로그인
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
FSA
·
2024년 2월 22일
팔로우
0
0
action recognition in videos
목록 보기
11/19
1. Info
2023, 299회 인용
https://arxiv.org/pdf/2303.16727v2.pdf
https://github.com/OpenGVLab/VideoMAEv2
520 stars
MAE? :
https://velog.io/@hsbc/MAE-Masked-Auto-Encoding-are-scalable-Vision-Learner
VideoMAE ?:
https://velog.io/@hsbc/VideoMAE-Masked-Autoencoders-are-Data-Efficient-Learners-for-Self-Supervised-Video-Pre-Training
Kinetics/SSV2 dataset?:
https://velog.io/@hsbc/video-action-recognition-테스크-정리
2. Introduction
LLM 연구들은 이미, data size나 model capacity를 잘 scaling 하는데에 성공하였다.
data size와 model capacity를 선형적으로 증가시킴에 따라, 성능도 선형적으로 증가함.
더불어서, computational cost와 memory consumption도 감당 가능한 수준에서, 성능 확보에 성공했다.
하지만, Vision 도메인, 특히 Video data에서의 Foundation model의 scaling 연구는 아직 활발하게 진행되고 있지 않음.
비디오 데이터의 볼륨이 너무 크기 때문.
본 논문은,
scaling을 효과적으로 하기위해, computational cost와 memory consumption을 비교적 적게 사용하는, 효과적인 VideoMAE scaling 방법을 제안
3. Approach
3.1. Dual Masking for VideoMAE
기존 VideoMAE의 한계점 1 극복
학습 단계에서 GPU/memory 의 과한소모
를 줄이기 위해,
dual masking 기법
을 제안
기존 VideoMAE의 과한 계산량의 원인
디코더가 visible / invisible token을 모두 입력으로 받기 때문에, Encoder에 비해서는 들어오는 데이터의 양이 10배 더 많음.
해결책
위 구조로 학습한 결과, model scaling up 과정에서, 한번도 다뤄본 적 없는 ViT-g에 대해서도 scaling을 성공했다고 함.
3.2. Scaling VideoMAE
3.2.1. Data scaling
VideoMAE의 한계점 2 극복
MAE 기반의 사전학습은 정말 많은 데이터를 필요로 하는데, Video MAE는 데이터의 수가 비교적 적어서, fine-tuning 단계에서, 비교적 작은 크기의 데이터에 대해서도 overfitting 됩니다.
VideoMAE fine tuning에서 사용된 Kinetics 400은 0.24M 개의 비디오 데이터를 학습 데이터로 사용 (혹은 SSV2를 이용하여 pre-training 하였음)
하지만, 이미지MAE에 사용되는 ImageNet-22k는, 14.2M 를 가지고 있음.
이를 극복하기 위해, UnlabeledHybrid 데이터 셋 제안
쉽게 얘기해서, pre-train 데이터 양을 6배(0.24M -> 1.35M개 비디오) 늘렸습니다!
Kinetics + General Webs + Youtube + Instagram + Movies 등의 소스 활용
3.2.2. Progressive pre-Training
VideoMAE의 한계점 3 극복
사전학습된 VideoMAE Foundation Model을, 어떻게 fine-tuning 해야하는지에 대한 연구가 부족했음.
나이브하게 billion-level로 사전학습된 VideoMAE를,
굉장히 작은 small dataset을 가지고 finetuning 하는 것은 sub-optimal
할 것이라고 주장.
이런 부분을 고민하여 개선했다고 함.
이미지 도메인에서는 이러한 고민의 해결책으로 , intermediate fine tuning 등을 내놓고 있음
https://velog.io/@hsbc/intermediate-fine-tuning-bbny7f5b
단계 1: 좀 더 큰 규모의 라벨 데이터셋으로 supervised Fine tuning 먼저 수행
이 때 사용되는 데이터셋(labledhybrid) 제안
사실 kinetics 400 + 600 + 700 합친 것
단계 2: Target으로 하는 작은 데이터 셋으로 최종 finetune
4. Experiments
4.1. Results on dual masking
디코더를 50% masking 했을 때, VideoMAE와 거의 근접한 성능을 달성.
성능은 그대로인데, FLOPs가 크게 줄어들었음 (35.48G -> 25.87G)
FLOPs란?:
https://velog.io/@hsbc/FLOPsFloating-Point-Operations-Per-Second-hbcldtk7
학습 속도도 1.5~1.7배 더 빨라짐
4.2. Performance on Downstream Tasks
Action Detection 부분에서 Optical FLow를 쓰지 않고도 SOTA를 달성함.
Action Detection 분야?:
https://velog.io/@hsbc/Video-Task-전부-정리
Optical FLow:
https://velog.io/@hsbc/Optical-Flow
FSA
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것
팔로우
이전 포스트
Highlight Detection
다음 포스트
ActionFormer: Localizing Moments of Actions with Transformers
0개의 댓글
댓글 작성