video-text multimodal dataset 정리

FSA·4일 전
0

[video] dataset

목록 보기
3/3
DatasetInput ResolutionFPS클립 길이특징
Kinetics‑400/600/700원본 영상은 다양하지만, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함약 25약 10초YouTube에서 추출된 액션 인식용 클립. 400~700개 클래스의 다양한 인간 활동이 포함됨
Something‑to‑Something V2 (SSV2)원본은 다양하나, 후처리 시 224×224 또는 256×256으로 리사이즈하는 경우가 많음약 12평균 약 4초 (2~6초 범위)일상적인 사물 조작 및 상호작용과 같이 미세한 시간적 변화를 요구하는 액션 이해에 초점
Charades원본 영상은 약 320×240이지만, 학습/평가 시 224×224 또는 256×256 등으로 리사이즈됨약 30평균 약 30초실내에서의 일상 활동을 담은 긴 클립. 복잡한 활동과 상호작용을 포괄함
AVA (Atomic Visual Actions)최신 연구에서는 높은 공간 해상도를 위해 448×448로 리사이즈하여 사용하는 경우가 많음약 303초 (주석 프레임 중심, 전후 1.5초씩)영화와 같은 장편 영상에서 1초마다 주석이 달린 프레임을 중심으로, 3초 길이의 클립을 추출하여 행동 인식을 수행함
WebVid‑2M / WebVid‑10M원본 비디오는 다양하나, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함원본은 다양 (학습 시 균일 샘플링)WebVid‑2M: 평균 약 18초
WebVid‑10M: 유사
웹 스크래핑을 통해 수집된 대규모 비디오-텍스트 데이터셋. WebVid‑2M은 약 2.5M, WebVid‑10M은 약 10M 비디오-텍스트 쌍을 포함하며, retrieval 등 멀티모달 태스크에 활용됨
HowTo100M원본 영상은 다양하지만, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함약 25–30평균 약 4초YouTube 등에서 수집한 내레이션 영상 기반 데이터셋. ASR 전사 캡션을 활용하여 자동 생성된 텍스트로 구성되며, 대규모 instruction 데이터셋임

WebVid2M/ WebVid10M

HowTo100M

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글

관련 채용 정보