골, 옐로우/레드 카드, 그리고 교체
같은 세 가지 주요 이벤트 클래스에 대해 1초 해상도로 제공
매우 희소한 이벤트의 위치를 찾는 문제에 초점을 맞춤.
분류 작업
스팟팅 작업
5초에서 60초까지의 허용 오차 범위에서 평균-mAP가 49.7%에 도달
데이터셋과 모델
: https://silviogiancola.github.io/SoccerNet1분 길이의 청크에 대한 이벤트 분류
1분 길이의 청크에서 발생한 이벤트에 대한 Time spotting
video chunk classification
및 event spotting
작업에서 우리 데이터셋에 대한 기준을 제공우리 연구에서, 우리는 이벤트를 특정 맥락 내에서 특정 규칙을 존중하며 단일 시간 인스턴스에 고정된 행동으로 정의
우리는 여러 이유로 모든 행동을 시간적 경계와 함께 정의하는 것이 모호하다고 주장합니다:
우리 연구에서, 우리는 이벤트를 특정 맥락 내에서 특정 규칙을 존중하며 단일 시간 인스턴스에 고정된 행동으로 정의
합니다. 우리는 여러 이유로 모든 행동을 시간적 경계와 함께 정의하는 것이 모호하다고 주장합니다:
시간적 경계를 가진 활동에만 초점
을 맞추고 여러 주석자 간의 합의에 의해 활동을 고정함으로써 모호함을 처리
AVA [31] 데이터셋
과 같이 최근에 개발된 것들을 자극했는데, 이는 짧은 시간 내에 밀도 높은 정밀한 주석을 제공
함으로써 행동의 원자적 특성에 대처하려고 시도앵커 시간(또는 스팟)을 찾는 것으로 구성
후보 스팟이 목표에 가까울수록 스팟팅은 더 좋으며, 그 능력은 목표로부터의 거리로 측정
완벽하게 목표를 스팟팅하는 것은 본질적으로 어렵기 때문에, 후보가 이벤트를 스팟팅(적중)한 것으로 간주되는 허용 오차 δ를 도입
후보 스팟 주변에서 미세 위치 결정 방법을 사용
하여 이러한 허용 오차를 원하는 대로 정제할 수 있음후보 스팟이 이벤트의 앵커 주변에 정해진 허용 오차 δ 내에 떨어지면 긍정적으로 정의
1분 길이의 청크에 대한 이벤트 분류
전체 비디오 내의 이벤트 스팟팅
게임 시작 시간 부터로 자르고, 224×224 해상도로 크기 조정 및 자르기를 하고, 25fps로 통일
기준 방법에 의해 사용될 C3D [77], I3D [13], ResNet [32] feature을 비디오에서 추출
0.5초마다 feature을 추출
ResNet-152는 단일 이미지에 적용되므로 시간 축을 따라 내재적으로 맥락 정보를 포함하지 않음
모델당 추출한 5.5M 기능에 주성분 분석(PCA)을 적용
우리는 원본과 자른 버전의 비디오뿐만 아니라, 0.5초마다 추출된 모든 기능의 원본과 축소된 버전을 제공
비디오를 1분 길이의 청크로 나누고, 이 1분 내에서 발생하는 모든 이벤트로 주석을 답니다.
120 features within a minute as input
for different versions of shallow pooling neural networks.마지막 레이어에서 시그모이드 활성화 함수를 사용함으로써, 우리는 후보들 사이에서 다중 라벨링을 허용
아마 120 frame의 각 frame 마다, goal인지에 대한 확률, 교체인지에 대한 확률, 카드인지에 대한 확률을 가각 다 추출하는 것으로 보이는데, 확인 필요
We test a mean and a max pooling operation along the aggregation axis that output 512-long features.
우리는 512×20 차원의 커널을 가진 맞춤형 CNN을 사용하여 시간 차원을 따라 이동하고 시간적 맥락을 수집
(time 축으로 CNN 돌린다.)이러한 이유로, 우리는 ResNet-152 기능이 Miech 등 [50]이 제공하는 어떠한 시간적 풀링 방법과 결합될 때 더 나은 결과를 제공한다고 주장
비디오를 1초 간격의 작은 부분으로 나누어 각 부분을 분석하는 방법
각 1초 구간마다 이벤트가 있는지를 평가할 수 있음
1분 간격의 윈도우 내에서
가장 높은 점수만을 고려 약하게 훈련된 분류기
(앞의 classification network)에 대한 이벤트 스팟팅 결과를 조사하여, 웹 기반으로 파싱된 주석 사용을 활용합니다. 반면에, 기준선 (i)는 더 점진적으로 감소하여 평균-mAP가 40.6%로 더 나은 결과를 제공
모델은 어떤 이벤트가 포함된 창(window)을 긍정적으로 예측(positive prediction)
이것은 모델이 이벤트가 포함된 구간을 정확하게 식별하고자 하는 것을 의미플래토란 모델이 어떤 범위 내에 있는 모든 창을 긍정적으로 예측하는 현상을 나타냄
20초 청크로 기준선 (i)를 사용하면 평균-mAP가 50%인 최고의 결과를 얻습니다(그림 3b 참조).
또한, 5초 청크로 훈련된 모델에서 성능이 감소하는 것을 볼 수 있습니다(그림 3c 참조).