video action recognition dataset 정리

FSA·2024년 1월 4일
0

1. Video Action Recognition 분야 개요

  • 이는 비디오 클립을 보고, 그 안에서 수행되는 구체적인 동작이나 활동을 정확하게 분류하는 작업
  • 예를 들어, "문 열기", "책 덮기"와 같은 동작을 비디오에서 인식하는 것이 목표

2.데이터셋

2.1. Kinetics-400/600/700 데이터셋


2.2. Something-to-Something V2 (SSV2)

  • https://paperswithcode.com/dataset/something-something-v2
  • 사람이 일상적인 물체를 사용하여 수행하는 간단한 동작들을 담은 짧은 비디오 클립으로 구성
  • SSV2는 다양한 동작을 이해하고, 비디오 내의 객체와의 상호작용을 인식하는 능력을 평가하기 위해 설계
  • 주된 차이:
    • SSV2는 물체와의 상호작용에 중점을 둔 일상 생활 속의 구체적인 동작들을 포함하는 반면, Kinetics는 더 넓은 범위의 동작과 자연스러운 상황에서의 인간 활동을 다룹니다.
    • 데이터의 다양성과 규모: Kinetics는 더 크고 다양한 소스에서 비디오를 수집하지만, SSV2는 창의적이고 다양한 방식으로 특정 동작을 수행하는 비디오에 중점을 둡니다.
    • 상호작용의 유형: SSV2는 사람과 물체 간의 상호작용을 강조하는 반면, Kinetics는 스포츠, 일상 생활 동작 등 더 광범위한 활동을 포함합니다.

2.3. UCF101 (UCF101 Human Actions dataset) -> 도움 안됨

  • https://paperswithcode.com/dataset/ucf101
  • UCF101 데이터셋은 UCF50의 확장판으로, 13,320개의 비디오 클립
  • 101개의 카테고리
    • 카테고리는 몸동작, 인간-인간 상호작용, 인간-물체 상호작용, 악기 연주, 스포츠 등 5가지 유형으로 분류
    • 총 길이는 27시간
    • 모든 비디오는 YouTube에서 수집되었으며, 320×240의 해상도로 25 FPS의 고정 프레임 속도

2.4. HMDB51

  • https://paperswithcode.com/dataset/hmdb51
  • HMDB51 데이터셋은 영화와 웹 비디오를 포함한 다양한 출처에서 가져온 현실적인 비디오들의 대규모 컬렉
  • 이 데이터셋은 51개의 액션 카테고리(예: "점프", "키스", "웃음" 등)에서 6,766개의 비디오 클립으로 구성되어 있으며, 각 카테고리는 최소 101개의 클립을 포함
  • 원래 평가 방식은 세 가지 다른 훈련/테스트 분할을 사용합니다.
  • 각 분할에서, 각 액션 클래스는 훈련을 위해 70개의 클립과 테스트를 위해 30개의 클립을 가집니다. 이 세 분할에 대한 평균 정확도를 사용하여 최종 성능을 측정합니다.

2.5. ActivityNet

  • 축구와 관련된 것은 없는듯.
  • https://paperswithcode.com/dataset/activitynet
  • YouTube에서 수집한 200가지 다른 유형의 활동과 총 849시간의 비디오를
  • 데이터셋의 버전 1.3은 총 19,994개의 편집되지 않은 비디오를 포함하고 있으며, 훈련, 검증, 테스트용으로 2:1:1의 비율로 세 개의 서로 겹치지 않는 부분집합으로 나뉩니다.
  • 평균적으로 각 활동 카테고리는 137개의 편집되지 않은 비디오를 가지고 있습니다.
  • 평균적으로 각 비디오는 시간적 경계와 함께 주석이 달린 1.41개의 활동을 가지고 있습니다.
  • 테스트 비디오의 실제 주석은 공개되지 않습니다.
  • https://github.com/antran89/ActivityNet/blob/master/Crawler/classes.txt

2.6. Sports-1M

  • https://paperswithcode.com/dataset/sports-1m
  • Sports-1M 데이터셋은 YouTube에서 100만 개 이상의 비디오로 구성되어 있습니다.
  • 데이터셋의 비디오는 저자가 지정한 YouTube URL을 통해 얻을 수 있습니다.
  • 데이터셋에는 487개의 스포츠 관련 카테고리에 카테고리 당 1,000개에서 3,000개의 비디오를 포함하여 100만 개 이상의 비디오
  • 비디오는 YouTube의 Topics API를 사용하여 비디오와 관련된 텍스트 메타데이터(예: 태그, 설명)를 분석함으로써 자동으로 487개의 스포츠 클래스로 레이블링
  • 약 5%의 비디오는 둘 이상의 클래스로 주석이 달려 있습니다.

2.7. THUMOS14


AVA

AVA Actions Dataset

  • 논문: https://arxiv.org/pdf/1705.08421.pdf
    • drink (휴식시간으로 볼 수 있나?)
    • kick (an object)
  • person pose
  • person-object interaction
  • person-person interaction
    • 우리가 유용하게 쓸 class 없음.
  • 80개의 visual action class
  • 430개의 movie clips (15분 길이)
  • 1장에 여러개의 class도 존재.
  • 특징
    • 클래스 정의: 복합적인 행동이 아닌, 원자적 시각 행동의 정의 (좀 더 디테일하게 정의했다는 뜻 같음)
    • 각 사람에 대해, 여러 class annotations (하나의 사람도, 여러 class가 배당되어 있다는 뜻 같음)
    • 연속된 시간 구간 안에서, 연결된 사람의 행동을 추출할 수 있다. (클립이 15분 길이이기 때문)
단점
  • 축구와 관련된 명시적 class가 없음.

AVA-kinetics Dataset

  • AVA actions + Kinetics dataset
  • AVA action labels on videos from Kinetics-700
  • 기존 AVA dataset에 추가한것.
단점
  • Kinetics의 class를 쓰지 않았음.

Charades

  • http://vuchallenge.org/charades.html
  • 9,848 videos of daily indoors (평균 30초 길이)
  • 157 action classes
    • interactions with 46 objects classes in 15 types of indoor scenes and containing a vocabulary of 30 verbs
    • 이 클래스에, 축구 관련된 용어는 없어보임.
  • Each video is annotated by
    • multiple free-text descriptions (27,847)
    • action labels, action intervals
    • classes of interacting objects
  • 41,104 labels for 46 object classes
  • The classification track
    • to recognize all activity categories for given videos ('Activity Classification')
    • where multiple overlapping activities can occur in each video.
    • 우린 여기엔 관심 없음.
  • The localization track
    • find the temporal locations of all activities in a video ('Activity Localization').
    • 이 task가 더 유용해보임.

SoccerNet

Ball action spotting

  • https://www.soccer-net.org/tasks/ball-action-spotting
  • Pass, Drive 2가지 종류 class
    • Each action is annotated with a single timestamp.
  • 7 videos at two resolutions (720p and 224p)
  • 전체 영상에서, pass/drive를 하는 순간의 timestamps들을 추출하는 Task인듯
  • 축구 데이터다 보니, 풋살 데이터와는 화각이 다름.

Action Spotting

  • https://www.soccer-net.org/tasks/action-spotting
  • 해당 동작이 일어나기 시작하는 그 순간의 timestamp를 찍어놓았음!
  • 득점은, 골 라인을 넘어가는 그 순간의 timestamp를 찍어놓음.
  • 클래스 종류 매우 칭찬해 (17개)
    • Penalty,
    • Kick-off, (좋아!)
    • Goal, (좋아!)
    • Substitution,
    • Offside,
    • Shots on target, (좋아!)
    • Shots off target,
    • Clearance,
    • Ball out of play, (좋아!)
    • Throw-in,
    • Foul,
    • Indirect free-kick,
    • Direct free-kick,
    • Corner,
    • Yellow card,
    • Red card,
    • Yellow->red card
  • 500 videos at two resolutions (720p and 224p)

Dense Video Captioning


camera changes

  • 13 개 클래스로 구분되어 있음

camera shot temporal segmentation


camera shot boundary detection

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글