[발표][sub글] 어떤 video task 로 정의하고 해결하는게 적합할까?

FSA·5일 전
0

-1. 두괄식 2줄 요약

  • 골 장면 추출에는 Action Recognition(Classification) 비디오 테스크가 적합해보여요.
  • 경기 하이라이트 추출이나, 경기 해설 text 생성으로 확장하면, 다른 비디오 테스크가 더 적합해보이나, 이번 문제정의의 범위를 벗어나요.

0. video task 전부 정리

  • 각 비디오 task의 문제정의, input과 output이 무엇인지 알고 싶으면 아래의 글을 참고해요.
  • video task 전부 정리



1. 적합해보이는 video task 정리

1.1. 우리에게 가장 적합한 task

  • Action Recognition(Classification)

가장 적합하다고 생각하는 이유

  • 우리는 지금, 다양한 text input에 모두 대응해야하는 video task를 해야하는 상황이 아니고, 그냥 골 장면만 찾으면 되는 상황이다.
  • 아래 1.2. 우리에게 2순위로 적합한 task다양한 text input에 모두 대응해야하는 task로써, 우리가 풀고자 하는 문제를 과하게 풀려는 시도일 수 있다.
  • 그냥 이진분류 문제로 풀면, 쉽게 풀릴수도?


1.2. 우리에게 2순위로 적합한 task

  • Video Retrieval
  • Moment Retrieval
  • Highlight Detection
  • Action Spotting

2순위로 적합하다고 생각하는 이유

Video Retrieval, Moment Retrieval, Highlight Detection

  • 추후, 골장면 뿐만 아니라, 경기 주요장면(아까운 슈팅 장면, 멋진 골기퍼 세이브 장면, 멋진 드리블 장면 등) 까지 추출하려면 요 방법으로 가는게 좋을수도 있다.
  • 다만, 경기 주요장면 성능을 계속해서 극대화 하려면 아래 2가지 접근법을 취해야한다.
    • zero-shot 능력이 엄청난 opensource 최신 모델 매번 follow-up하면서 교체해주기
    • 그게 아니면, 축구 주요장면 dataset을 확보해서 fine-tuning 시켜주는 방법

Action Spotting

  • 정확한 골 시각(골이 골라인을 넘어가는 그 시각)을 맞추는게 좋아보이긴 하는데,
  • video 딥러닝 도메인에서 다루지 않는 task 정의라는게 좀 걸림
    • 예: opensource가 별로 없어보임


0.3. 우리에게 3순위로 적합한 task

  • Spatiotemporal Action Localization (Action Detection)
  • temporal action localization
  • Video Question Answering

3순위로 적합하다고 생각하는 이유?

  • Spatiotemporal Action Localization (Action Detection)
    • 득점 / 어시스트자 구분은 이번 문제 정의의 범위를 벗어난다.
  • temporal action localization
    • 축구 득점장면은 시작시각 , 끝시각의 정의가 어렵고 모호하다.
  • Video Question Answering
    • 골 장면 추출하는데 있어, 굳이 질문 대답까지 할 필요는 없다.



profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글

관련 채용 정보