masked self-supervised pre-training
+ multi-modal constrastive pre-training
을 결합하여 Video Foundation model을 pre-training 시키는 방법을 제시기존 Vision Foundation 모델의 한계
InternVideo의 제안
상호 보완적인 학습 방법
InternVideo의 성과
10개의 대표적인 비디오 작업
과 39개의 공개 데이터셋
을 선택하여, 이를 세 가지 유형으로 분류CLIP의 다양한 시간 변형 버전
은 여러 비디오 벤치마크에서 좋은 성능을 제공 [5, 22].simultaneous spatiotemporal learner
(비디오 Foundation Model 학습을 의미)의 연구 수요가 적습니다.비전 Foundation Model
의 transfer ability는, 비디오 애플리케이션의 광범위한 스펙트럼을 고려할 때 비교적 제한적비용 효율적이고 다목적 모델인 InternVideo
를 통해 비디오 Foundation Model 연구를 진전시키고자 함video masked modeling
과 multimodal contrastive learning
을 연구video masked modeling
마스킹된 부분을 예측하기 위해서는, 모델이 비디오 내의 움직임과 변화를 잘 이해해야 하기 때문
multimodal contrastive learning
일반화된 representation
을 검증하기 위해, 체계적인 비디오 이해 벤치마크를 제안unified video representation (UVR)
학습 패러다임을 설계 (이제 구체적 방법에 대해 설명함!!)Dataset | Input Resolution | FPS | 클립 길이 | 특징 |
---|---|---|---|---|
Kinetics‑400/600/700 | 원본 영상은 다양하지만, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함 | 약 25 | 약 10초 | YouTube에서 추출된 액션 인식용 클립. 400~700개 클래스의 다양한 인간 활동이 포함됨 |
Something‑to‑Something V2 (SSV2) | 원본은 다양하나, 후처리 시 224×224 또는 256×256으로 리사이즈하는 경우가 많음 | 약 12 | 평균 약 4초 (2~6초 범위) | 일상적인 사물 조작 및 상호작용과 같이 미세한 시간적 변화를 요구하는 액션 이해에 초점 |
Charades | 원본 영상은 약 320×240이지만, 학습/평가 시 224×224 또는 256×256 등으로 리사이즈됨 | 약 30 | 평균 약 30초 | 실내에서의 일상 활동을 담은 긴 클립. 복잡한 활동과 상호작용을 포괄함 |
AVA (Atomic Visual Actions) | 최신 연구에서는 높은 공간 해상도를 위해 448×448로 리사이즈하여 사용하는 경우가 많음 | 약 30 | 3초 (주석 프레임 중심, 전후 1.5초씩) | 영화와 같은 장편 영상에서 1초마다 주석이 달린 프레임을 중심으로, 3초 길이의 클립을 추출하여 행동 인식을 수행함 |
WebVid‑2M / WebVid‑10M | 원본 비디오는 다양하나, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함 | 원본은 다양 (학습 시 균일 샘플링) | WebVid‑2M: 평균 약 18초 WebVid‑10M: 유사 | 웹 스크래핑을 통해 수집된 대규모 비디오-텍스트 데이터셋. WebVid‑2M은 약 2.5M, WebVid‑10M은 약 10M 비디오-텍스트 쌍을 포함하며, retrieval 등 멀티모달 태스크에 활용됨 |
HowTo100M | 원본 영상은 다양하지만, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함 | 약 25–30 | 평균 약 4초 | YouTube 등에서 수집한 내레이션 영상 기반 데이터셋. ASR 전사 캡션을 활용하여 자동 생성된 텍스트로 구성되며, 대규모 instruction 데이터셋임 |
오토인코더(MAE)를 사용한 masked video modeling
과 multimodal contrastive learning
의 두 가지 표현을 각각 pre-trainsupervised action classification
로 fine tuningsupervised action classification
이 뭐라고 물으신다면?sparse sampling
을 선택함.uniform(sparse) sampling
비디오 분할 (Segmentation):
긴 비디오를 총 K개의 동일한 길이의 구간(segments)으로 나눕니다. 예를 들어, 비디오가 L개의 프레임으로 구성되어 있다면, 각 구간의 길이는 약 L/K 프레임이 됩니다.
스니펫 추출 (Snippet Extraction):
각 구간에서 하나의 스니펫(snippet)을 선택합니다. 스니펫은 단일 프레임일 수도 있고, 짧은 연속 프레임(예: 5프레임)일 수도 있습니다.
학습 단계에서는 보통 각 구간 내에서 랜덤하게 (randomly) 선택하여 다양한 temporal 변화를 학습하도록 하고,
테스트 단계에서는 보통 구간의 중앙값을 선택하는 방식(중심 샘플링)을 사용할 수 있습니다.
Uniform Sampling의 장점:
cross-representation learning
이 뭐라고 물으신다면?대규모 비디오 Foundation 모델을 효율적이고 실용적인 방식으로 훈련하기 위한 실천적 가이드라인
을 제안VideoMAE를 확장 가능하게(scalable): 모델 및 데이터 크기에서의 확장 가능성을 탐구
훈련 비디오에서 적절한 다양성과 크기 확장
이 사용된 비디오 인코더의 scalability을 향상할 수 있음
을 보여줌공간 어텐션 수행 한 후 -> 시간 어텐션을 수행
하여, 계산 효율적으로 시공간적 특징을 학습 (ViViT의 2번쨰 아키텍쳐 처럼)