CLIP(Contrast Language-Image Pretraining)는 이미지 이해를 위한 인상적인 제로샷 학습 능력을 입증했지만 제로샷 비디오 인식을 위한 CLIP를 조사하기 위한 노력은 제한적이었습니다. 저희는 CLIP를 테스트 시간에 보이지 않는 동작과 이벤트를 인식할 수 있는 강력한 제로샷 비디오 분류기로 변환하는 간단하면서도 효과적인 접근 방식인 OpenVCLIP를 소개합니다. 저희의 프레임워크는 최소한의 수정으로 CLIP를 비디오의 공간-시간 관계를 모델링하여 전문 비디오 분류기로 만드는 동시에 일반화를 위해 노력합니다. 저희는 OpenVCLIP를 훈련하는 것이 과거 데이터가 없는 지속적인 학습과 동일하다는 것을 공식적으로 보여줍니다. 이 문제를 해결하기 위해 저희는 훈련과 테스트 시간 모두에서 가중치 보간의 이점을 활용하는 보간 가중치 최적화를 제안합니다. 저희는 다양한 제로샷 평가 프로토콜에 따라 세 가지 인기 있고 도전적인 액션 인식 데이터 세트에 대한 저희의 방법을 평가하고 저희의 접근 방식이 명확한 마진으로 최첨단 방법을 능가한다는 것을 입증합니다. 특히 UCF, HMDB 및 Kinetics-600에서 각각 87.9%, 58.3%, 81.1%의 제로샷 정확도를 달성하여 최첨단 방법을 8.3%, 7.8% 및 12.2% 능가했습니다.
제로샷 학습은 심층 신경망이 테스트 중에 새로운 보이지 않는 클래스를 훈련 중에 보지 않고 인식해야 하는 어려운 문제입니다. 수동 주석 없이 새로운 클래스를 분류하는 일반화 능력은 실제 응용 분야에서 특히 유용합니다. 제로샷 학습에 대한 광범위한 연구가 수행되었지만(Zellers & Choi, 2017;
Brattoli et al., 2020; Xu et al., 2017), CLIP(Radford et al., 2021)은 최근 웹 스케일 이미지와 텍스트 쌍을 대조적으로 사전 교육함으로써 이미지 분할(Wang et al., 2022; Ghiasi et al., 2021; 2022), 이미지 편집(Zheng et al., 2022; Crowson et al., 2022)과 같은 다양한 작업에서 놀라운 제로 샷 능력을 입증했습니다.
이미지 도메인에서 상당한 제로샷 결과가 달성되지만 제로샷 비디오 액션 인식을 위한 CLIP을 탐색하기 위한 노력은 제한적입니다. 이미지 작업을 위해 설계된 CLIP을 비디오 도메인으로 확장하는 것은 특히 제로샷 설정에서 매우 어렵습니다. 한편으로, 비디오의 액션과 이벤트를 더 잘 인식하기 위해 비디오에 인코딩된 풍부한 시간적 역학을 주의 깊게 캡처할 것으로 예상됩니다. 비디오를 프레임의 백으로 취급하고 프레임 기반 예측에 대해 시간적 풀링을 수행할 수 있지만(Wang et al., 2021), 기성 이미지 모델 위에 특수 시간 모델링 구성 요소를 사용하여 CLIP과 같은 사전 훈련된 모델을 미세 조정하면 더 나은 결과가 나오는 것으로 나타났습니다(Ni et al., 2022). 그러나 특수 매개 변수를 최적화하려면 사전 훈련된 CLIP 모델을 미세 조정해야 하므로 개선된 결과는 일반화를 줄이는 비용을 감수해야 합니다. 그런 다음 도출된 모델은 CLIP을 훈련하는 데 사용되는 이미지 텍스트 데이터 세트보다 훨씬 작은 미세 조정에 사용되는 비디오 데이터 세트에 과도하게 적합하는 경향이 있습니다. 결과적으로 미세 조정이 진행됨에 따라 CLIP의 제로샷 능력은 감소합니다.