비디오 액션 인식에 대한 종합 가이드
- 이 가이드에서는 현대의 딥러닝 접근법, 트랜스포머 및 효율적인 예측 기법을 포함한 최신 동향까지, 비디오 액션 인식의 발전 과정을 탐구
- 또한 이 분야에서 연구를 촉진시킨 주요 데이터셋과 여전히 해결되지 않은 과제들에 대해서도 논의
1. 비디오 액션 인식 소개
- 정적 이미지를 다루는 이미지 인식과는 달리, 비디오 액션 인식은 공간적 정보(프레임 내에 무엇이 있는지)와 시간적 정보(시간에 따라 어떻게 변화하는지)를 모두 고려해야 합니다.
- 이로 인해 모델이 단순히 객체를 이해하는 것뿐 아니라 그것들의 움직임과 상호작용까지 파악해야 하므로 복잡성이 증가
2. 주요 데이터셋
- 데이터셋은 비디오 액션 인식 모델을 훈련하고 평가하는 데 매우 중요합니다. 아래는 이 분야에서 중요한 역할을 한 데이터셋들입니다:
UCF-101
- 설명: 101개의 액션 카테고리에서 13,320개의 비디오를 포함.
- 카테고리:
- 인간-객체 상호작용
- 신체 동작
- 인간-인간 상호작용
- 악기 연주
- 스포츠
- 용도: 액션 인식 알고리즘 벤치마크로 널리 사용.
HMDB-51
- 설명: 영화 및 공공 데이터베이스에서 수집한 51개의 액션 카테고리를 포함한 6,766개의 비디오 클립.
- 의의: UCF-101에 비해 더 복잡한 실제 상황을 제공.
THUMOS
- 설명: 시간적 액션 탐지 및 지역화에 중점.
- 특징: 다듬어지지 않은 비디오에서 액션의 시간적 경계를 주석으로 제공.
Sports-1M
- 설명: 487개의 스포츠 클래스에 걸친 100만 개 이상의 YouTube 비디오.
- 주의: YouTube 태그 기반 주석의 노이즈로 인해 오늘날에는 덜 사용됨.
ActivityNet 200
- 설명: 200개의 액션 클래스를 포함한 다양한 활동.
- 목적: 다듬어지지 않은 비디오에서의 활동 이해를 목표.
YouTube-8M
- 설명: 수백만 개의 YouTube 비디오 ID와 관련 라벨을 포함하는 대규모 데이터셋.
- 도전: 데이터 프라이버시 및 접근성 문제로 인해 결과 재현이 어려움.
Kinetics
- 설명: YouTube에서 400~700개의 액션 클래스를 포함한 고품질의 다양한 비디오 클립 제공.
- 영향: 크기와 다양성으로 인해 표준 벤치마크로 자리 잡음.
AVA Dataset
- 설명: 15분 길이의 영화 클립에서 조밀하게 주석 처리된 단순 행동("서기", "말하기" 등)을 강조.
- 특징: 시간적 지역화를 중점으로 둠.
Epic Kitchens
- 설명: 주방에서 기록된 자가 시점 비디오 대규모 데이터셋.
- 난점: 비구조화된 데이터와 세밀한 행동으로 인한 복잡성.
Something-Something V2
- 설명: 인간과 객체 간 상호작용을 중점으로 둔 비디오.
- 독창성: "무언가를 무언가 위에 놓기"와 같은 시간적 역학을 이해해야 함.
4. 딥러닝 접근법
딥러닝은 데이터를 직접 학습하여 특징을 추출함으로써 큰 진전을 이루었습니다.
3D 합성곱 신경망
C3D
- 설명: 비디오 분석을 위한 최초의 성공적인 3D CNN 아키텍처 중 하나.
- 아키텍처: 2D 합성곱을 3D로 확장해 시간적 정보를 캡처.
Pseudo-3D Residual Networks (P3D ResNet)
- 개념: 3D 합성곱을 공간적 및 시간적 합성곱으로 분리.
- 이점: 계산 복잡도를 줄이며 시공간 동역학 포착.
5. 최신 동향
트랜스포머를 활용한 비디오 액션 인식
트랜스포머는 자연어 처리의 혁신 이후, 컴퓨터 비전에서도 급격히 주목받고 있습니다.
Vision Action Transformer Network
- 개념: 셀프 어텐션 메커니즘으로 시공간 의존성을 모델링.
- 이점: 컨볼루션 수용 영역의 한계를 극복하며 전역 컨텍스트를 캡처.
TimeSformer
- 설계: Vision Transformer(ViT)를 비디오에 적용.
- 도전 과제: 계산량이 많아 효율적이지 않음.
- 해결책: 공간-시간 어텐션 분리, 희소 어텐션 등.
6. 효율적인 예측 기법
LiteEval
- 전략: 덜 유용한 프레임을 건너뜀.
- 프로세스: 경량 네트워크가 프레임의 중요도를 빠르게 평가하고 필요한 경우에만 전체 네트워크로 처리.
7. 과제와 문제점
- 데이터셋 한계:
실제 복잡성을 제대로 반영하지 못하는 경우가 많음.
- 가변적인 추론 시간: 비디오마다 다른 계산량 요구.