[발표][sub글] 어떤 video task 로 정의하고 해결하는게 적합할까?

FSA·2025년 2월 1일

0

action recognition in videos

목록 보기

22/24

-1. 두괄식 2줄 요약

골 장면 추출에는 Action Recognition(Classification) 비디오 테스크가 적합해보여요.
경기 하이라이트 추출이나, 경기 해설 text 생성으로 확장하면, 다른 비디오 테스크가 더 적합해보이나, 이번 문제정의의 범위를 벗어나요.

0. video task 전부 정리

각 비디오 task의 문제정의, input과 output이 무엇인지 알고 싶으면 아래의 글을 참고해요.
video task 전부 정리

1. 적합해보이는 video task 정리

1.1. 우리에게 가장 적합한 task

Action Recognition(Classification)

가장 적합하다고 생각하는 이유

우리는 지금, 다양한 text input에 모두 대응해야하는 video task를 해야하는 상황이 아니고, 그냥 골 장면만 찾으면 되는 상황이다.
아래 1.2. 우리에게 2순위로 적합한 task 는 다양한 text input에 모두 대응해야하는 task로써, 우리가 풀고자 하는 문제를 과하게 풀려는 시도일 수 있다.
그냥 이진분류 문제로 풀면, 쉽게 풀릴수도?

1.2. 우리에게 2순위로 적합한 task

Video Retrieval
Moment Retrieval
Highlight Detection
Action Spotting

2순위로 적합하다고 생각하는 이유

Video Retrieval, Moment Retrieval, Highlight Detection

추후, 골장면 뿐만 아니라, 경기 주요장면(아까운 슈팅 장면, 멋진 골기퍼 세이브 장면, 멋진 드리블 장면 등) 까지 추출하려면 요 방법으로 가는게 좋을수도 있다.
다만, 경기 주요장면 성능을 계속해서 극대화 하려면 아래 2가지 접근법을 취해야한다.
- zero-shot 능력이 엄청난 opensource 최신 모델 매번 follow-up하면서 교체해주기
- 그게 아니면, 축구 주요장면 dataset을 확보해서 fine-tuning 시켜주는 방법

Action Spotting

정확한 골 시각(골이 골라인을 넘어가는 그 시각)을 맞추는게 좋아보이긴 하는데,
video 딥러닝 도메인에서 다루지 않는 task 정의라는게 좀 걸림
- 예: opensource가 별로 없어보임

0.3. 우리에게 3순위로 적합한 task

Spatiotemporal Action Localization (Action Detection)
temporal action localization
Video Question Answering

3순위로 적합하다고 생각하는 이유?

Spatiotemporal Action Localization (Action Detection)
- 득점 / 어시스트자 구분은 이번 문제 정의의 범위를 벗어난다.
temporal action localization
- 축구 득점장면은 시작시각 , 끝시각의 정의가 어렵고 모호하다.
Video Question Answering
- 골 장면 추출하는데 있어, 굳이 질문 대답까지 할 필요는 없다.

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

이전 포스트

[발표][sub글]"골 장면 추출" 문제 정의

다음 포스트

[발표][sub글] 골장면 추출을 위한 2가지 딥러닝 기반 접근 방법 소개

0개의 댓글