Action Spotting using Dense Detection Anchors Revisited: Submission to the SoccerNet Challenge 2022

FSA·2024년 1월 19일

action recognition in videos

목록 보기

5/24

https://arxiv.org/pdf/2206.07846.pdf
밀집된 탐지 앵커(densely sampled detection anchors) 사용
- 각 앵커는 특정 시간과 행동 클래스의 쌍으로 정의됨 (60초 영상이면, 60 * 2hz * 3 class = 360 개 앵커)
  - 1 input feature vector 당, 1 class 당, 1개의 앵커
  - 여기서 앵거는
    - 위 그림의 파란색 빨간색 박스를 의미
    - 아래 그림 왼쪽 아래의 3개의 막대바를 의미 (탐지 신뢰도만 그렸음)
- 각 앵커에 대해, 탐지 신뢰도 + 시간적 변위가 추론됨
'타이트 평균-mAP(tight average-mAP)' 성능 지표에서 상당한 개선 (아래 빨간글씨)
프로세스의 개선:
- 사전 처리(pre-processing) 및 사후 처리(post-processing) 단계에 작은 변화
- 또한, 다양한 유형의 입력 기능을 '늦은 융합(late fusion)'을 통해 결합

이전 논문에서 사용한 2개의 feature을 late fusion함
- "RESNet-152 + PCA" features : 2 fps
- "Combination": 1 fps
  - 1 fps 를, linear interpolation을 통해 2fps로 변환
  - 이유: 빈도(1fps)가 허용 반경이 0.5초 단위로 증가하는 타이트 평균-mAP 지표를 적절하게 계산하기에는 너무 낮다는 것을 알아냄
최종 탐지를 얻기 위해 non-maximum suppression, NMS 단계가 적용

각 모델에 대한 학습률, Sharpness-Aware Minimization(SAM), 가중치 감소, mixup 데이터 증강 등의 하이퍼파라미터들은 검증 세트를 사용하여 조정

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것