[발표][sub글] Video Foundation Model 연구 동향 소개

FSA·5일 전
0

0. 읽은 논문들

0.1. 그 외




학습시 사용하는 데이터셋

  • action clasfication 학습시 사용하는 데이터셋
  • video-text caption 데이터셋
  • 우리는 아래 데이터셋 중, Kinetics와 SSV2를 위주로 글을 설명해나갈 것이에요. 왜냐면 두 데이터셋은 영상 길이도 다르고, fps도 크게 다른데, 어떻게 학습에 동시에 활용할 것인지가 궁금하기 떄문이에요.
  • 그리고 위 2개 데이터셋이 가장 많이 사용되기 때문이에요.
DatasetInput ResolutionFPS클립 길이특징
Kinetics‑400/600/700원본 영상은 다양하지만, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함약 25약 10초YouTube에서 추출된 액션 인식용 클립. 400~700개 클래스의 다양한 인간 활동이 포함됨
Something‑to‑Something V2 (SSV2)원본은 다양하나, 후처리 시 224×224 또는 256×256으로 리사이즈하는 경우가 많음약 12평균 약 4초 (2~6초 범위)일상적인 사물 조작 및 상호작용과 같이 미세한 시간적 변화를 요구하는 액션 이해에 초점
Charades원본 영상은 약 320×240이지만, 학습/평가 시 224×224 또는 256×256 등으로 리사이즈됨약 30평균 약 30초실내에서의 일상 활동을 담은 긴 클립. 복잡한 활동과 상호작용을 포괄함
AVA (Atomic Visual Actions)최신 연구에서는 높은 공간 해상도를 위해 448×448로 리사이즈하여 사용하는 경우가 많음약 303초 (주석 프레임 중심, 전후 1.5초씩)영화와 같은 장편 영상에서 1초마다 주석이 달린 프레임을 중심으로, 3초 길이의 클립을 추출하여 행동 인식을 수행함
WebVid‑2M / WebVid‑10M원본 비디오는 다양하나, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함원본은 다양 (학습 시 균일 샘플링)WebVid‑2M: 평균 약 18초
WebVid‑10M: 유사
웹 스크래핑을 통해 수집된 대규모 비디오-텍스트 데이터셋. WebVid‑2M은 약 2.5M, WebVid‑10M은 약 10M 비디오-텍스트 쌍을 포함하며, retrieval 등 멀티모달 태스크에 활용됨
HowTo100M원본 영상은 다양하지만, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함약 25–30평균 약 4초YouTube 등에서 수집한 내레이션 영상 기반 데이터셋. ASR 전사 캡션을 활용하여 자동 생성된 텍스트로 구성되며, 대규모 instruction 데이터셋임



profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글

관련 채용 정보