[논문번역] Revisiting Classifier: Transferring Vision-Language Models for Video Recognition

마이클의 AI 연구소·2024년 1월 18일

Abstract

다운스트림 작업을 위해 작업에 구애받지 않고 사전 훈련된 심층 모델에서 지식을 전달하는 것은 컴퓨터 비전 연구에서 중요한 주제입니다. 계산 용량의 성장과 함께, 저희는 이제 모델 아키텍처와 데이터 양의 대규모로 오픈 소스 비전 언어 사전 훈련된 모델을 보유하고 있습니다. 이 연구에서 저희는 비디오 분류 작업을 위한 지식 전달에 초점을 맞추고 있습니다. 기존의 방법은 비전 분류를 위해 선형 분류기 헤드를 무작위로 초기화하지만, 다운스트림 시각 인식 작업을 위한 텍스트 인코더의 사용은 발견되지 않은 상태로 남습니다. 본 논문에서는 선형 분류기의 역할을 수정하고 사전 훈련된 모델과 다른 지식으로 분류기를 대체합니다. 저희는 효율적인 학습 전달을 위한 좋은 의미론적 대상을 생성하기 위해 사전 훈련된 언어 모델을 활용합니다. 경험적 연구는 저희의 방법이 모델의 변경을 무시할 수 없을 정도로 비디오 분류의 성능과 훈련 속도를 모두 향상시킨다는 것을 보여줍니다.
당사의 단순하지만 효과적인 튜닝 패러다임은 다양한 비디오 인식 시나리오, 즉 제로샷, 퓨샷 및 일반 인식에 대한 최첨단 성능과 효율적인 교육을 달성합니다. 특히, 당사의 패러다임은 Kinetics-400에서 87.8%의 최첨단 정확도를 달성하며, 5개의 비디오 데이터 세트에 대한 제로샷, 퓨샷 설정에서 이전 방법을 20~50%의 절대 탑1 정확도로 능가합니다.

Introduction

대규모 일반 데이터 세트를 사용하여 작업에 제한이 없는 모델을 사전 훈련한 다음 학습 기능 표현을 다운스트림 작업으로 전송하는 것은 많은 컴퓨터 비전 애플리케이션의 패러다임입니다. 지난 10년 동안 지도 스타일로 이미지넷(Deng et al. 2009) 데이터 세트에 최적화된 컨볼루션 기반 모델이 이 분야를 지배했습니다. 계산 용량이 급격히 증가함에 따라 이제 다양한 이미지 및 비디오 데이터 세트에 몇 가지 크기의 모델 매개 변수와 FLOP가 더 많은 모델을 지도(Sun et al. 2017) 또는 자체 지도(He et al. 2020; Huang et al. 2021; Fang et al. 2022) 스타일로 훈련할 수 있습니다. 최근 대조 기반 비전 언어 사전 훈련(Radford et al. 2021)은 분류(Radford et al. 2021), 캡션(Mokady, Hertz, Bermano 2021), 이미지 생성(Ramesh et al. 2021)과 같은 다운스트림 작업 성능을 개선하는 데 탁월한 능력을 보여줍니다. 이러한 모델은 두 가지 이유로 강력합니다:

i) 사용된 대규모 약하게 관련된 데이터 세트는 풍부한 의미론과 다양한 개념 표현을 제공합니다. ii) 이미지와 텍스트의 표현 벡터는 의미론 임베딩 공간에 대략적으로 정렬됩니다. 그러나 이러한 모델을 사용하는 가장 일반적인 방법은 특정 작업에 대한 시각적 인코더를 미세 조정하는 것입니다. 풍부한 의미론과 다양한 개념 표현이 다운스트림 작업에 도움이 되지만 텍스트 인코더의 사용은 여전히 간과되고 있습니다.
본 연구에서는 텍스트 인코더의 도움을 받아 다운스트림 분류 작업을 위한 이러한 비전 언어 사전 훈련 모델의 전송 가능성을 향상시키는 것을 목표로 합니다. 저희의 동기는 지상 진실 레이블 간의 의미론적 유사성에서 비롯됩니다. 이를 입증하기 위해 저희는 분석에 키네틱스 비디오 인식 데이터 세트(Kay et al. 2017)를 사용합니다. 저희는 CLIP의 텍스트 인코더를 사용하여 클래스 레이블의 내장된 텍스트 벡터를 추출합니다. 그런 다음 내장된 텍스트 벡터 간의 상관 관계를 계산합니다. 그림은 그림 1의 왼쪽에 나와 있습니다. 클래스 레이블의 추출된 텍스트 벡터는 일부가 레이블에 동일한 동사를 포함하기 때문에 특정 클래스 간 상관 관계를 나타냅니다. 한편, 다른 동사를 가진 레이블은 음주 및 운전과 같은 무시할 수 있는 클래스 간 상관 관계를 보여줍니다.
다음으로 바닐라 비디오 인식 프레임워크의 최종 프로젝션 헤드를 조사합니다. CLIP에서도 출시된 비주얼 인코더(Radford et al. 2021)로 시각적 전용 미세 조정 진행을 수행합니다. 자세한 구성은 섹션 4.3에서 제공됩니다. 프로젝션 헤드는 c 클래스에 대한 d차원 특징 벡터에서 사전 소프트맥스 값(또는 로짓)을 계산하기 위해 d × c의 행렬입니다.

마이클의 AI 연구소

늘 성장을 꿈꾸는 자들을 위한 블로그입니다.

이전 포스트

[논문번역] Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization

다음 포스트

[논문번역] Revisiting Classifier: Transferring Vision-Language Models for Video Recognition

Abstract

Introduction

[논문번역] Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization

[논문번역] ActionCLIP: A New Paradigm for Video Action Recognition

0개의 댓글

관련 채용 정보