이 분야에서 가장 관련성 있는 작업들의 오픈 소스 적용 버전과 함께 재현 가능
재현 가능한 벤치마크 결과와 우리의 코드 및 공개 리더보드를 공개
축구 비디오에서, 축구 이벤트의 앵커를 찾는 문제
Ball out of play
Shots on target
Shots off target
Kick-off
Goal
[24]를 따라, 우리는 SoccerNet의 500경기 각각의 액션을 축구 규칙에 의해 정의된 단일 타임스탬프로 주석 처리
각 타임스탬프에 방송 비디오에서 해당 액션이 보여지는지 아니면 보여지지 않는지를 나타내는 새로운 이진 가시성 태그를 추가
이는 프로듀서가 골키퍼의 클리어런스 샷이 끝난 후에도 목표에서 벗어난 슛의 리플레이를 보여줄 때 발생
SoccerNet [24]과 일관성을 유지하기 위해, 우리는 각 액션이 홈팀 또는 원정팀에 의해 수행되었는지를 주석 처리하지만, 이에 대한 추가 분석은 향후 작업으로 남겨둡니다.
방송 축구 경기의 중요한 액션을 이해하기 위해, SoccerNet [24]은 비디오에서 발생하는 모든 액션을 찾는 액션 스팟팅 작업
순간을 검색
하는 더 일반적인 문제를 다룸re- trieving moments
with a specific semantic meaning in long untrimmed videos. 액션은 활동 위치 지정 [30] 작업과 달리 시작 및 종료 타임스탬프로 구분되는 것이 아니라
단일 타임스탬프로 고정
됩니다. contrary to the task of activity localization [30]
, where activities are delimited with start and stop timestamps.
2fps에서 계산된 ResNet [29], I3D [8], C3D [76]의 특징들을 PCA로 512차원으로 축소시켜 제공
우리는 이를 재현하기 위한 코드를 공개하고, 전용 서버에서 리더보드를 호스팅할 예정
우리는 SoccerNet [24]에서 공개 코드를 발표한 모든 방법들을 효율적으로 적응시키거나 재구현
20초의 겹치지 않는 세그먼트들이 어떤 액션 클래스가 포함되어 있는지 분류
20초의 슬라이딩 윈도우와 1프레임의 스트라이드를 사용
하여 시간에 따른 액션 점수를 추론
하고, NMS를 사용하여 액션 스팟으로 축소
20초 분량의 ResNet 특징들을 시간적으로 풀링
하며, 2fps에서 하위 샘플링된 VGGish [31] 동기화 오디오 특징들을 사용
스팟팅 예측은 비디오 청크의 중심에 있음
2분 분량의 ResNet 특징들을 다룸
청크당 최대 15개의 예측을 출력하는 액션 스팟팅 모듈로 구성