\[Blog] \[Paper] \[Model Card] \[Colab]CLIP (Contrastive Language-Image Pre-Training) is a neural network trained on a variety of (image, text) pairs.
SoccerNet의 500개의 편집되지 않은 방송 축구 비디오 내에서 약 30만 개의 주석을 공개이 분야에서 가장 관련성 있는 작업들의 오픈 소스 적용 버전과 함께 재현 가능재현 가능한 벤치마크 결과와 우리의 코드 및 공개 리더보드를 공개최근 컴퓨터 비전 작업은 축구
SoccerNet: Only for action spotting스팟팅 작업: 비디오에서 축구 이벤트의 앵커를 찾는 것으로 정의이 데이터셋은 2014년부터 2017년까지의 세 시즌을 커버하는 유럽 주요 리그의 500개 완전한 축구 경기로 구성되어 있으며, 총 764시간의
https://openaccess.thecvf.com/content_CVPRW_2020/papers/w53/Vanderplaetse_Improved_Soccer_Action_Spotting_Using_Both_Audio_and_Video_Streams_CVPR
축구 비디오에서 행동을 정확하게 찾아내기 위한 새로운 방법을 소개이 방법은 시간적 정밀도를 높이기 위해 '밀집된 탐지 앵커(densely sampled detection anchors)' 세트를 사용밀집된 탐지 앵커란, 비디오를 매우 자세히 분석하여 각 순간을 정확하게
Recall도 높고, Precision도 높으면 최고지만,Recall이 더 중요함.(골이라고 예측해서 맞춘 갯수 / 골이라고 예측한 갯수) (골이라고 예측해서 맞춘 갯수 / (예측 시도 중에) 실제 골 갯수)뜻: 맞는걸 맞다고 잘 예측하는 능력mAP는 여러 클래스에 대
라벨이 없는 비디오 데이터를 활용하여 트랜스포머의 초기화에 관련된 도전을 해결knowledge distillation로 프리트레이닝을 하는 것의 이점에 대한 종합적인 분석을 제공이는 비디오에서 특정 행동을 정확한 시간에 탐지하는 '액션 스팟팅' 작업을 위한 공간적-시간
학습 시, 모든 anchor predictions 출력값을 이용해서, (후처리 없이) 바로 loss를 구했음."RESNet-152 + PCA" features 준비https://openaccess.thecvf.com/content/CVPR2021W/CVSpor
2023 인용 xhttps://arxiv.org/pdf/2311.17241v1.pdf2021, 21회 인용https://arxiv.org/pdf/2106.11812v1.pdf2021, 326회 인용https://arxiv.org/pdf/210
2023, 9회 인용https://openaccess.thecvf.com/content/ICCV2023/papers/Lin_UniVTG_Towards_Unified_Video-Language_Temporal_Grounding_ICCV_2023_paper.pdf
2023, 95회 인용https://arxiv.org/pdf/2303.16727v2.pdf
2022, 191회 인용https://arxiv.org/pdf/2202.07925.pdf
작성중
https://github.com/cvdfoundation/kinetics-datasethttps://github.com/cvdfoundation/ava-datasethttp://vuchallenge.org/charades.html
https://arxiv.org/pdf/2212.03191v2.pdf2022, 118회 인용https://arxiv.org/pdf/2212.03229v1.pdf2023, 23회 인용https://arxiv.org/pdf/2303.16058v1