비디오 액션 인식에 대한 표준 접근 방식은 뉴럴 모델이 N개 중 고전적이고 표준적인 1개 중 1개의 다수결 작업을 수행하도록 결정합니다. 이들은 미리 정의된 범주의 고정 집합을 예측하도록 훈련되어 보이지 않는 개념으로 새로운 데이터 세트에서 전송 가능한 능력을 제한합니다. 본 논문에서는 레이블 텍스트의 의미 정보를 단순히 숫자로 매핑하는 것이 아니라 중요성을 부여하여 액션 인식에 대한 새로운 관점을 제공합니다. 특히, 저희는 이 작업을 멀티모달 학습 프레임워크 내에서 비디오 텍스트 일치 문제로 모델링하여 보다 의미론적 언어 감독을 통해 비디오 표현을 강화하고 저희 모델이 더 이상 레이블이 지정된 데이터나 매개변수 요구 사항 없이 제로샷 액션 인식을 수행할 수 있도록 합니다. 또한 레이블 텍스트의 부족을 처리하고 엄청난 웹 데이터를 활용하기 위해 액션 인식을 위한 이 멀티모달 학습 프레임워크를 기반으로 새로운 패러다임을 제안하며, 이를 "사전 훈련, 신속 및 미세 조정"이라고 합니다. 이 패러다임은 먼저 대량의 웹 이미지 텍스트 또는 비디오 텍스트 데이터에 대한 사전 교육에서 강력한 표현을 학습합니다. 그런 다음 신속한 엔지니어링을 통해 액션 인식 작업을 사전 교육 문제와 더 유사하게 수행하도록 만듭니다. 마지막으로, 강력한 성능을 얻기 위해 대상 데이터 세트에 대한 엔드 투 엔드 미세 조정을 수행합니다. 저희는 우수하고 유연한 제로샷/소수샷 전송 능력을 가지고 있을 뿐만 아니라 일반적인 액션 인식 작업에서 최고 성능에 도달하여 ViT-B/16을 백본으로 하여 Kinetics-400에서 83.8%의 상위 1 정확도를 달성하는 새로운 패러다임인 ActionCLIP를 인스턴스화합니다.
신경 모델은 고전적이고 표준적인 N 중 1개의 다수결 작업을 수행합니다. 그들은 보이지 않는 개념이 있는 새로운 데이터 세트에서 전송 가능한 능력을 제한하면서 미리 정의된 범주의 고정 세트를 예측하도록 훈련 받습니다. 본 논문에서는 레이블 텍스트의 의미론적 정보를 단순히 숫자로 매핑하는 것이 아니라 중요성을 부여하여 액션 인식에 대한 새로운 관점을 제공합니다. 특히, 저희는 이 작업을 멀티모달 학습 프레임워크 내에서 비디오 텍스트 일치 문제로 모델링하여 보다 의미론적 언어 감독을 통해 비디오 표현을 강화하고 모델이 더 이상 레이블이 지정된 데이터나 매개변수 요구 사항 없이 제로샷 액션 인식을 수행할 수 있도록 합니다. 또한 레이블 텍스트의 부족을 처리하고 엄청난 웹 데이터를 활용하기 위해 액션 인식을 위한 이 멀티모달 학습 프레임워크를 기반으로 새로운 패러다임을 제안하며, 이를 "사전 훈련, 신속 및 미세 조정"이라고 합니다. 이 패러다임은 먼저 대량의 웹 이미지 텍스트 또는 비디오 텍스트 데이터에 대한 사전 훈련에서 강력한 표현을 학습합니다. 그런 다음 프롬프트 엔지니어링을 통해 액션 인식 작업을 사전 훈련 문제와 더 유사하게 만듭니다. 마지막으로, 강력한 성능을 얻기 위해 대상 데이터 세트에 대한 엔드 투 엔드 미세 조정을 수행합니다.
비디오 동작 인식은 비디오 이해의 첫 번째 단계이며 최근 몇 년 동안 활발한 연구 분야입니다. 저희는 주로 두 가지 단계, 즉 피쳐 엔지니어링과 아키텍처 엔지니어링을 거쳤음을 관찰했습니다. 키네틱스[5]와 같은 대규모 데이터 세트가 탄생하기 전에는 고품질 모델을 학습하기 위한 데이터가 충분하지 않았기 때문에 초기 방법은 피쳐 엔지니어링에 초점을 맞추었고, 연구자들은 비디오 내부의 시간 정보를 고려하고 그 지식을 사용하여 특정 수작업 표현을 설계했습니다[7, 42]. 그 후 심층 신경망과 대규모 벤치마크의 출현으로 이제 두 번째 단계인 아키텍처 엔지니어링에 도달했습니다. 잘 설계된 많은 네트워크가 2-스트림 네트워크[45], 3D 컨볼루션 신경망[12], 계산 효율적인 네트워크[15] 및 트랜스포머 기반 네트워크[2]와 같이 시간적 차원을 합리적으로 흡수하여 탄생했습니다.
지난 몇 년 동안 기능과 네트워크 아키텍처가 잘 연구되었지만, 그림 1(a)와 같이 단일 모드 프레임워크 내에서 미리 정의된 범주의 고정 집합을 예측하도록 훈련되었습니다. 이러한 미리 결정된 방식은 레이블이 지정된 추가 교육 데이터가 다른 새롭고 보이지 않는 개념으로 전송되어야 하기 때문에 일반성과 고용을 제한합니다. 기존 작업과 같이 레이블을 숫자에 직접 매핑하는 대신 원시 텍스트에서 학습하는 것이 훨씬 더 광범위한 감독 소스가 될 수 있고 더 포괄적인 표현을 제공할 수 있는 유망한 솔루션이 될 것입니다. 우리는 인간이 이 작업을 수행하는 방식을 연상시키며 시각적 외관의 의미 정보를 숫자가 아닌 자연어 소스에 연결하여 알려진 비디오와 알려지지 않은 비디오를 모두 인식할 수 있습니다.
본 논문에서는 그림 1(b)와 같은 멀티모달 프레임워크에서 자연어 감독을 두 가지 목표로 탐구합니다, i) 더 많은 의미론적 언어 감독으로 전통적인 동작 인식의 표현을 강화하고, ii) 모델이 더 이상 레이블이 지정된 데이터 또는 매개변수 요구 사항 없이 제로샷 전송을 실현할 수 있도록 합니다. 저희의 멀티모달 프레임워크에는 비디오 및 레이블을 위한 두 개의 개별 유니모달 인코더와 유사성 계산 모듈이 포함되어 있습니다. 훈련 목표는 쌍별 비디오 및 레이블 표현을 서로 가깝게 끌어당기는 것이므로 학습된 표현은 유니모달 방법보다 더 의미론적일 것입니다. 추론 단계에서는 기존의 N 대 1 다수결 작업이 아닌 비디오 텍스트 일치 문제가 되며 제로샷 예측이 가능합니다.
그러나 기존의 완전히 감독된 액션 인식 데이터 세트의 레이블은 언어 학습을 위한 풍부한 문장을 구성하기에는 항상 너무 간결합니다. 새로운 비디오 데이터 세트를 수집하고 주석을 다는 것은 막대한 저장 자원과 엄청난 인간의 노력과 시간이 필요합니다. 반면에, 시끄럽지만 풍부한 텍스트 레이블이 있는 수많은 비디오는 매일 웹에서 저장되고 생성됩니다. 액션 인식을 위한 풍부한 웹 데이터에 활력을 불어넣을 방법은 없을까요? 사전 훈련은 ViViT[2]에서 입증된 솔루션일 수 있습니다. 그러나 대규모 웹 데이터로 사전 훈련을 하는 것은 쉽지 않습니다. 스토리지 하드웨어, 계산 리소스 및 실험 사이클1에서는 비용이 많이 듭니다. 이는 본 논문의 또 다른 동기를 유발하며, 위의 딜레마를 방지하고 사전 훈련된 멀티모달 모델을 이 작업에 직접 적용할 수 있을까요? 저희는 이것이 가능하다고 생각합니다. 저희는 형식적으로 비디오 액션 인식을 위한 새로운 패러다임 "사전 훈련, 프롬프트 및 미세 조정"을 정의합니다. HowTo100M[32]와 같은 대규모 비디오 텍스트 데이터 세트로 전체 모델을 엔드투엔드로 사전 훈련하는 것이 매력적이지만, 막대한 계산 비용으로 인해 제약을 받습니다. 저희는 사전 훈련 모델을 사용하는 것도 가능하다는 것을 알게 되었습니다. 여기서는 사전 훈련 기능을 유지하기 위해 새로운 패러다임에서 "사전 훈련"이 아닌 "사전 훈련"이라는 단어를 사용합니다. 그런 다음, 최종 분류 레이어와 목적 함수를 대체하여 사전 훈련 모델을 특정 벤치마크에 적응시키는 대신, 프롬프트를 통해 원래 사전 훈련 절차 동안 해결된 것과 더 유사하게 보이도록 작업을 재구성합니다. 신속한 기반 학습 [25]는 자연어 처리(NLP)로의 해상 변화로 간주되지만 비전 작업에서는 활성화되지 않았으며, 특히 액션 인식에서는 활용되지 않았습니다. 저희는 많은 비전 텍스트 관련 작업에서 매력적인 전망을 가지고 여기에서 액션 인식에서 이를 탐구할 수 있을 것으로 믿습니다. 마지막으로, 저희는 대상 데이터 세트에 대한 전체 모델을 미세 조정합니다. 저희는 이 패러다임의 인스턴스화인 ActionCLIP를 구현하며, 이는 사전 훈련된 모델로 CLIP[36]를 사용합니다. 이는 Kinetics-400에서 최고 83.8%의 정확도 1위의 성능을 얻습니다. 당사의 기여는 다음과 같이 요약할 수 있습니다:
• 저희는 액션 인식 작업을 기존의 단일 모드 분류 작업이 아닌 다중 모드 학습 문제로 공식화합니다. 더 많은 의미론적 언어 감독으로 표현을 강화하고 제로 샷/소수 샷 상황에서 모델의 일반성과 고용을 확대합니다.
• 저희는 액션 인식에 대한 새로운 패러다임을 제안하며, 이를 "사전 훈련, 프롬프트 및 미세 조정"이라고 합니다. 이 패러다임에서 적절한 프롬프트를 설계하여 강력한 대규모 웹 데이터 사전 훈련 모델을 직접 재사용할 수 있어 사전 훈련 비용을 크게 절감할 수 있습니다.
• 포괄적인 실험은 여러 공개 벤치마크 데이터 세트에서 최첨단 방법을 일관되게 능가하는 우리 방법의 잠재력과 효과를 보여줍니다.