Video Task 전부 정리

FSA·2024년 2월 22일
0

[video] task 분류

목록 보기
1/2

1. 쉬운 task

1.0. Action Classification

1.0.1. 설명

  • kinetics dataset이 main으로 사용되는데, 10초 짜리 영상이 어떤 class인지 맞추는 테스크 (action recognition 이랑 뭐가 다른지 모르겠음)
  • 아래와 같은 metric을 사용
  • Accuracy 91% 정도의 SOTA

1.1. action recognition in video

1.1.1. 설명

  • 이는 비디오 클립(trimmed short video)을 보고, 그 안에서 수행되는 구체적인 동작이나 활동을 정확하게 분류하는 작업
    • 1 video에 속한 class 맞추기
  • 예를 들어, "문 열기", "책 덮기"와 같은 동작을 비디오에서 인식하는 것이 목표
  • 비디오 분야에서, 충분히 큰 데이터셋에 대한 액션 분류 네트워크를 훈련시키면 다른 시간적 작업이나 데이터셋에 적용했을 때 유사한 성능 향상을 줄 수 있는지 여부는 여전히 미해결 문제
  • 비디오 데이터셋을 구축하는 데에는 여러 도전이 있으며, 이로 인해 액션 인식을 위한 대부분의 인기 있는 벤치마크는 작으며, 대략 1만 개의 비디오 정도를 가지고 있음

1.1.2. 데이터셋

1.1.3. 활용 방법 (상)

  • 풋살 영상을 매우 짧게 잘라서(10초), 거기에 있는 클래스들을 전부 추출해내기 (goal/ 슛팅 등)
    • 겹치게 10초를 짜르면, 놓치는 것도 없을 듯.
  • 골이 담긴 10초 영상을 추출한 후에는, 거기서 goal이 들어간 순간을 정확히 추출해내는 것이 훨씬 쉬워질듯?
  • 골 (슈팅) 순간을 잡아냈으면, 앞 10초, 뒤 5초 이런식으로 구간을 생성하여, 골 (슈팅) 하이라이트를 만들 수 있음
    • 단순히 앞 10초, 뒤 5초 이런식으로 구간을 생성하더라도, 어색함이 없고 괜찮더라.

1.2. Action Spotting

1.2.1. 설명

  • 특정 action이 일어나는 명확한 시각을 찾는 task
  • soccer-net 챌린지에서 정의된 task로, 그 외 범용적 field에서 쓰이는 용어는 아님

그 외

  • Action Classification: https://paperswithcode.com/task/action-classification
  • Video Classification:
    • https://paperswithcode.com/task/video-classification
    • 비디오 분류는 주어진 프레임을 바탕으로 비디오에 관련된 라벨을 생성하는 작업
    • 좋은 비디오 수준의 분류기는 정확한 프레임 라벨을 제공할 뿐만 아니라, 비디오의 다양한 프레임에 대한 특징과 주석을 바탕으로 전체 비디오를 가장 잘 설명하는 것
    • 예를 들어, 비디오의 어떤 프레임에는 나무가 포함될 수 있지만, 비디오의 중심이 되는 라벨은 다른 것일 수 있습니다(예: "등산").
    • 프레임과 비디오를 설명하는 데 필요한 라벨의 세밀함은 작업에 따라 다릅니다.
    • 전형적인 작업에는 비디오에 하나 이상의 글로벌 라벨을 할당하고, 비디오 내의 각 프레임에 하나 이상의 라벨을 할당하는 것이 포함

2. 어려운 task

2.1. Action Detection

2.1.1. 설명

  • video clip에서, 특정 action이 언제 어디서 일어났는지 찾고, 어떤 action인지 분류
  • 특히, 결과가 action tublets로 출력됨
    • action tublets: action bounding boxes linked across time in the video

2.1.3. 활용 방법 (하)

  • 슛을 한 사람을 bounding box로 추출한다.
  • human detection + tracking을 적용한 결과를 이용해서, 위 슛을 한 사람 bounding box가 어떤 사람인지 매칭시킨다.
  • 특정 선수에 대한 하이라이트가 생성 가능해질수도?

2.2. temporal (action) localization

2.2.1 설명

  • start and end frame of an action 찾는 분야 (특정 class에 대한)
  • Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps.
  • It is closely related to Temporal Action Proposal Generation.

2.2.2. 데이터셋

2.2.3. 활용 방법 (애매)

  • 어떤 action에 대한 시작~끝 시각을 정확하게 찾고 싶을 떄 도움이 됨
    • 골이나 슛 같이, 명시적인 action 시점이 있는 것을 찾는 데에는 과한 접근법일수도
    • 쿼터 시작~끝 이런걸 찾을 때는 도움이 되나?
      • 시작
        • 선수들이 경기장 밖에서 안으로 확 들어옴
        • 중앙선에서 공이 시작 (득점 후에도 중앙선으로 갈 수 있는데, 이 case와 어떻게 구분하는가)
        • 사람들이 정적인 움직임에서, 동적인 움직임으로 확 바뀜
        • 각자의 진영에 5명, 5명 분리되어 있다가, 섞이는 그 전환 과정 어딘가
        • 소리가 달라짐 (화이팅! 화이팅!)
        • 사람들이 전부 경기장 밖으로 나가기 시작함.
        • 수고하셨습니다! 와 같은 멘트

3. 가장 어려운 task

3.1. Moment Retrieval

3.1.1. 설명

  • "localizing moments in a video given a user query".
profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글