VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

FSA·2024년 2월 22일
0

1. Info


2. Introduction

  • LLM 연구들은 이미, data size나 model capacity를 잘 scaling 하는데에 성공하였다.
    • data size와 model capacity를 선형적으로 증가시킴에 따라, 성능도 선형적으로 증가함.
    • 더불어서, computational cost와 memory consumption도 감당 가능한 수준에서, 성능 확보에 성공했다.
  • 하지만, Vision 도메인, 특히 Video data에서의 Foundation model의 scaling 연구는 아직 활발하게 진행되고 있지 않음.
    • 비디오 데이터의 볼륨이 너무 크기 때문.
    • 본 논문은, scaling을 효과적으로 하기위해, computational cost와 memory consumption을 비교적 적게 사용하는, 효과적인 VideoMAE scaling 방법을 제안

3. Approach

3.1. Dual Masking for VideoMAE

  • 기존 VideoMAE의 한계점 1 극복
    • 학습 단계에서 GPU/memory 의 과한소모를 줄이기 위해, dual masking 기법을 제안
    • 기존 VideoMAE의 과한 계산량의 원인
      • 디코더가 visible / invisible token을 모두 입력으로 받기 때문에, Encoder에 비해서는 들어오는 데이터의 양이 10배 더 많음.
  • 해결책
    • 위 구조로 학습한 결과, model scaling up 과정에서, 한번도 다뤄본 적 없는 ViT-g에 대해서도 scaling을 성공했다고 함.

3.2. Scaling VideoMAE

3.2.1. Data scaling

  • VideoMAE의 한계점 2 극복
    • MAE 기반의 사전학습은 정말 많은 데이터를 필요로 하는데, Video MAE는 데이터의 수가 비교적 적어서, fine-tuning 단계에서, 비교적 작은 크기의 데이터에 대해서도 overfitting 됩니다.
      • VideoMAE fine tuning에서 사용된 Kinetics 400은 0.24M 개의 비디오 데이터를 학습 데이터로 사용 (혹은 SSV2를 이용하여 pre-training 하였음)
      • 하지만, 이미지MAE에 사용되는 ImageNet-22k는, 14.2M 를 가지고 있음.
    • 이를 극복하기 위해, UnlabeledHybrid 데이터 셋 제안
      • 쉽게 얘기해서, pre-train 데이터 양을 6배(0.24M -> 1.35M개 비디오) 늘렸습니다!
      • Kinetics + General Webs + Youtube + Instagram + Movies 등의 소스 활용

3.2.2. Progressive pre-Training

  • VideoMAE의 한계점 3 극복
    • 사전학습된 VideoMAE Foundation Model을, 어떻게 fine-tuning 해야하는지에 대한 연구가 부족했음.
    • 나이브하게 billion-level로 사전학습된 VideoMAE를, 굉장히 작은 small dataset을 가지고 finetuning 하는 것은 sub-optimal할 것이라고 주장.
  • 이런 부분을 고민하여 개선했다고 함.
    • 이미지 도메인에서는 이러한 고민의 해결책으로 , intermediate fine tuning 등을 내놓고 있음
    • 단계 1: 좀 더 큰 규모의 라벨 데이터셋으로 supervised Fine tuning 먼저 수행
      • 이 때 사용되는 데이터셋(labledhybrid) 제안
        • 사실 kinetics 400 + 600 + 700 합친 것
    • 단계 2: Target으로 하는 작은 데이터 셋으로 최종 finetune

4. Experiments

4.1. Results on dual masking

4.2. Performance on Downstream Tasks

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글