Video Task 전부 정리

FSA·2024년 2월 22일
0

video vision

목록 보기
1/10

1. 쉬운 task

1.0. Action Classification

1.0.1. 설명

  • kinetics dataset이 main으로 사용되는데, 10초 짜리 영상이 어떤 class인지 맞추는 테스크 (action recognition 이랑 뭐가 다른지 모르겠음)
  • 아래와 같은 metric을 사용
  • Accuracy 91% 정도의 SOTA

1.1. action recognition in video

1.1.1. 설명

  • 이는 비디오 클립(trimmed short video)을 보고, 그 안에서 수행되는 구체적인 동작이나 활동을 정확하게 분류하는 작업
    • 1 video에 속한 class 맞추기
  • 예를 들어, "문 열기", "책 덮기"와 같은 동작을 비디오에서 인식하는 것이 목표
  • 비디오 분야에서, 충분히 큰 데이터셋에 대한 액션 분류 네트워크를 훈련시키면 다른 시간적 작업이나 데이터셋에 적용했을 때 유사한 성능 향상을 줄 수 있는지 여부는 여전히 미해결 문제
  • 비디오 데이터셋을 구축하는 데에는 여러 도전이 있으며, 이로 인해 액션 인식을 위한 대부분의 인기 있는 벤치마크는 작으며, 대략 1만 개의 비디오 정도를 가지고 있음

1.1.2. 데이터셋

1.1.3. 활용 방법 (상)

  • 풋살 영상을 매우 짧게 잘라서(10초), 거기에 있는 클래스들을 전부 추출해내기 (goal/ 슛팅 등)
    • 겹치게 10초를 짜르면, 놓치는 것도 없을 듯.
  • 골이 담긴 10초 영상을 추출한 후에는, 거기서 goal이 들어간 순간을 정확히 추출해내는 것이 훨씬 쉬워질듯?
  • 골 (슈팅) 순간을 잡아냈으면, 앞 10초, 뒤 5초 이런식으로 구간을 생성하여, 골 (슈팅) 하이라이트를 만들 수 있음
    • 단순히 앞 10초, 뒤 5초 이런식으로 구간을 생성하더라도, 어색함이 없고 괜찮더라.

1.2. Action Spotting

1.2.1. 설명

  • 특정 action이 일어나는 명확한 시각을 찾는 task
  • soccer-net 챌린지에서 정의된 task로, 그 외 범용적 field에서 쓰이는 용어는 아님

그 외

  • Action Classification: https://paperswithcode.com/task/action-classification
  • Video Classification:
    • https://paperswithcode.com/task/video-classification
    • 비디오 분류는 주어진 프레임을 바탕으로 비디오에 관련된 라벨을 생성하는 작업
    • 좋은 비디오 수준의 분류기는 정확한 프레임 라벨을 제공할 뿐만 아니라, 비디오의 다양한 프레임에 대한 특징과 주석을 바탕으로 전체 비디오를 가장 잘 설명하는 것
    • 예를 들어, 비디오의 어떤 프레임에는 나무가 포함될 수 있지만, 비디오의 중심이 되는 라벨은 다른 것일 수 있습니다(예: "등산").
    • 프레임과 비디오를 설명하는 데 필요한 라벨의 세밀함은 작업에 따라 다릅니다.
    • 전형적인 작업에는 비디오에 하나 이상의 글로벌 라벨을 할당하고, 비디오 내의 각 프레임에 하나 이상의 라벨을 할당하는 것이 포함

2. 어려운 task

2.1. Action Detection

2.1.1. 설명

  • video clip에서, 특정 action이 언제 어디서 일어났는지 찾고, 어떤 action인지 분류
  • 특히, 결과가 action tublets로 출력됨
    • action tublets: action bounding boxes linked across time in the video

2.1.3. 활용 방법 (하)

  • 슛을 한 사람을 bounding box로 추출한다.
  • human detection + tracking을 적용한 결과를 이용해서, 위 슛을 한 사람 bounding box가 어떤 사람인지 매칭시킨다.
  • 특정 선수에 대한 하이라이트가 생성 가능해질수도?

2.2. temporal (action) localization

2.2.1 설명

  • start and end frame of an action 찾는 분야 (특정 class에 대한)
  • Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

2.2.2. 데이터셋

2.2.3. 활용 방법 (애매)

  • 어떤 action에 대한 시작~끝 시각을 정확하게 찾고 싶을 떄 도움이 됨
    • 골이나 슛 같이, 명시적인 action 시점이 있는 것을 찾는 데에는 과한 접근법일수도
    • 쿼터 시작~끝 이런걸 찾을 때는 도움이 되나?
      • 시작
        • 선수들이 경기장 밖에서 안으로 확 들어옴
        • 중앙선에서 공이 시작 (득점 후에도 중앙선으로 갈 수 있는데, 이 case와 어떻게 구분하는가)
        • 사람들이 정적인 움직임에서, 동적인 움직임으로 확 바뀜
        • 각자의 진영에 5명, 5명 분리되어 있다가, 섞이는 그 전환 과정 어딘가
        • 소리가 달라짐 (화이팅! 화이팅!)
        • 사람들이 전부 경기장 밖으로 나가기 시작함.
        • 수고하셨습니다! 와 같은 멘트

3. 가장 어려운 task

3.1. Moment Retrieval

3.1.1. 설명

  • "localizing moments in a video given a user query".
profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글