Video action recognition 개요

FSA·2024년 11월 20일
0

[video] task 분류

목록 보기
2/2

비디오 액션 인식에 대한 종합 가이드

  • 이 가이드에서는 현대의 딥러닝 접근법, 트랜스포머 및 효율적인 예측 기법을 포함한 최신 동향까지, 비디오 액션 인식의 발전 과정을 탐구
  • 또한 이 분야에서 연구를 촉진시킨 주요 데이터셋과 여전히 해결되지 않은 과제들에 대해서도 논의

1. 비디오 액션 인식 소개

  • 정적 이미지를 다루는 이미지 인식과는 달리, 비디오 액션 인식은 공간적 정보(프레임 내에 무엇이 있는지)와 시간적 정보(시간에 따라 어떻게 변화하는지)를 모두 고려해야 합니다.
  • 이로 인해 모델이 단순히 객체를 이해하는 것뿐 아니라 그것들의 움직임과 상호작용까지 파악해야 하므로 복잡성이 증가

2. 주요 데이터셋

  • 데이터셋은 비디오 액션 인식 모델을 훈련하고 평가하는 데 매우 중요합니다. 아래는 이 분야에서 중요한 역할을 한 데이터셋들입니다:

UCF-101

  • 설명: 101개의 액션 카테고리에서 13,320개의 비디오를 포함.
  • 카테고리:
    • 인간-객체 상호작용
    • 신체 동작
    • 인간-인간 상호작용
    • 악기 연주
    • 스포츠
  • 용도: 액션 인식 알고리즘 벤치마크로 널리 사용.

HMDB-51

  • 설명: 영화 및 공공 데이터베이스에서 수집한 51개의 액션 카테고리를 포함한 6,766개의 비디오 클립.
  • 의의: UCF-101에 비해 더 복잡한 실제 상황을 제공.

THUMOS

  • 설명: 시간적 액션 탐지 및 지역화에 중점.
  • 특징: 다듬어지지 않은 비디오에서 액션의 시간적 경계를 주석으로 제공.

Sports-1M

  • 설명: 487개의 스포츠 클래스에 걸친 100만 개 이상의 YouTube 비디오.
  • 주의: YouTube 태그 기반 주석의 노이즈로 인해 오늘날에는 덜 사용됨.
    • 결론: 쓰지마!

ActivityNet 200

  • 설명: 200개의 액션 클래스를 포함한 다양한 활동.
  • 목적: 다듬어지지 않은 비디오에서의 활동 이해를 목표.

YouTube-8M

  • 설명: 수백만 개의 YouTube 비디오 ID와 관련 라벨을 포함하는 대규모 데이터셋.
  • 도전: 데이터 프라이버시 및 접근성 문제로 인해 결과 재현이 어려움.

Kinetics

  • 설명: YouTube에서 400~700개의 액션 클래스를 포함한 고품질의 다양한 비디오 클립 제공.
  • 영향: 크기와 다양성으로 인해 표준 벤치마크로 자리 잡음.
    • 결론: 많이쓰더라!

AVA Dataset

  • 설명: 15분 길이의 영화 클립에서 조밀하게 주석 처리된 단순 행동("서기", "말하기" 등)을 강조.
  • 특징: 시간적 지역화를 중점으로 둠.
    • 결론: 좋아보이는데?

Epic Kitchens

  • 설명: 주방에서 기록된 자가 시점 비디오 대규모 데이터셋.
  • 난점: 비구조화된 데이터와 세밀한 행동으로 인한 복잡성.

Something-Something V2

  • 설명: 인간과 객체 간 상호작용을 중점으로 둔 비디오.
  • 독창성: "무언가를 무언가 위에 놓기"와 같은 시간적 역학을 이해해야 함.

4. 딥러닝 접근법

딥러닝은 데이터를 직접 학습하여 특징을 추출함으로써 큰 진전을 이루었습니다.

3D 합성곱 신경망

C3D

  • 설명: 비디오 분석을 위한 최초의 성공적인 3D CNN 아키텍처 중 하나.
  • 아키텍처: 2D 합성곱을 3D로 확장해 시간적 정보를 캡처.

Pseudo-3D Residual Networks (P3D ResNet)

  • 개념: 3D 합성곱을 공간적 및 시간적 합성곱으로 분리.
  • 이점: 계산 복잡도를 줄이며 시공간 동역학 포착.

5. 최신 동향

트랜스포머를 활용한 비디오 액션 인식

트랜스포머는 자연어 처리의 혁신 이후, 컴퓨터 비전에서도 급격히 주목받고 있습니다.

Vision Action Transformer Network

  • 개념: 셀프 어텐션 메커니즘으로 시공간 의존성을 모델링.
  • 이점: 컨볼루션 수용 영역의 한계를 극복하며 전역 컨텍스트를 캡처.

TimeSformer

  • 설계: Vision Transformer(ViT)를 비디오에 적용.
  • 도전 과제: 계산량이 많아 효율적이지 않음.
  • 해결책: 공간-시간 어텐션 분리, 희소 어텐션 등.

6. 효율적인 예측 기법

LiteEval

  • 전략: 덜 유용한 프레임을 건너뜀.
  • 프로세스: 경량 네트워크가 프레임의 중요도를 빠르게 평가하고 필요한 경우에만 전체 네트워크로 처리.

7. 과제와 문제점

  • 데이터셋 한계: 실제 복잡성을 제대로 반영하지 못하는 경우가 많음.
  • 가변적인 추론 시간: 비디오마다 다른 계산량 요구.

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글