Dataset | Input Resolution | FPS | 클립 길이 | 특징 |
---|---|---|---|---|
Kinetics‑400/600/700 | 원본 영상은 다양하지만, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함 | 약 25 | 약 10초 | YouTube에서 추출된 액션 인식용 클립. 400~700개 클래스의 다양한 인간 활동이 포함됨 |
Something‑to‑Something V2 (SSV2) | 원본은 다양하나, 후처리 시 224×224 또는 256×256으로 리사이즈하는 경우가 많음 | 약 12 | 평균 약 4초 (2~6초 범위) | 일상적인 사물 조작 및 상호작용과 같이 미세한 시간적 변화를 요구하는 액션 이해에 초점 |
Charades | 원본 영상은 약 320×240이지만, 학습/평가 시 224×224 또는 256×256 등으로 리사이즈됨 | 약 30 | 평균 약 30초 | 실내에서의 일상 활동을 담은 긴 클립. 복잡한 활동과 상호작용을 포괄함 |
AVA (Atomic Visual Actions) | 최신 연구에서는 높은 공간 해상도를 위해 448×448로 리사이즈하여 사용하는 경우가 많음 | 약 30 | 3초 (주석 프레임 중심, 전후 1.5초씩) | 영화와 같은 장편 영상에서 1초마다 주석이 달린 프레임을 중심으로, 3초 길이의 클립을 추출하여 행동 인식을 수행함 |
WebVid‑2M / WebVid‑10M | 원본 비디오는 다양하나, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함 | 원본은 다양 (학습 시 균일 샘플링) | WebVid‑2M: 평균 약 18초 WebVid‑10M: 유사 | 웹 스크래핑을 통해 수집된 대규모 비디오-텍스트 데이터셋. WebVid‑2M은 약 2.5M, WebVid‑10M은 약 10M 비디오-텍스트 쌍을 포함하며, retrieval 등 멀티모달 태스크에 활용됨 |
HowTo100M | 원본 영상은 다양하지만, 모델 학습 시 일반적으로 224×224 (또는 256×256)로 리사이즈함 | 약 25–30 | 평균 약 4초 | YouTube 등에서 수집한 내레이션 영상 기반 데이터셋. ASR 전사 캡션을 활용하여 자동 생성된 텍스트로 구성되며, 대규모 instruction 데이터셋임 |
10 seconds
.400/600/700 human action classes
putting "something" onto "something" 형식
으로 되어 있음물체와의 상호작용에 중점을 둔 일상 생활 속의 구체적인 동작들을 포함
하는 반면, Kinetics는 더 넓은 범위의 동작과 자연스러운 상황에서의 인간 활동을 다룹니다.SSV2는 창의적이고 다양한 방식으로 특정 동작을 수행하는 비디오에 중점
을 둡니다.SSV2는 사람과 물체 간의 상호작용을 강조
하는 반면, Kinetics는 스포츠, 일상 생활 동작 등 더 광범위한 활동을 포함합니다.15분 길이
)클래스 정의: 복합적인 행동이 아닌, 원자적 시각 행동의 정의
(좀 더 디테일하게 정의했다는 뜻 같음)각 사람에 대해, 여러 class annotations
(하나의 사람도, 여러 class가 배당되어 있다는 뜻 같음)연속된 시간 구간 안에서, 연결된 사람의 행동을 추출할 수 있다.
(클립이 15분 길이이기 때문)평균 30초 길이
)interactions with 46 objects classes
in 15 types of indoor scenes
and containing a vocabulary of 30 verbs
free-text descriptions
(27,847)action labels
, action intervals
classes of interacting objects
temporal locations of all activities
in a video ('Activity Localization').Pass, Drive
2가지 종류 class