최근 비디오 이해에 대한 수요가 급격히 증가함에 따라 비디오 순간 검색 및 하이라이트 감지(MR/HD)가 주목을 받고 있습니다. MR/HD의 주요 목표는 주어진 텍스트 쿼리에 대해 순간을 지역화하고 클립 별 일치 수준, 즉 중요도 점수를 추정하는 것입니다.
최근 트랜스포머 기반 모델들이 일부 진전을 가져왔지만, 이러한 방법들이 주어진 쿼리의 정보를 완전히 활용하지 못한다는 것을 발견했습니다. 예를 들어, 순간과 그 중요도를 예측할 때 텍스트 쿼리와 비디오 콘텐츠 간의 관련성이 때때로 무시됩니다. 이 문제를 해결하기 위해, 우리는 MR/HD를 위해 맞춤형된 검출 트랜스포머인 Query-Dependent DETR (QD-DETR)을 소개합니다. 트랜스포머 아키텍처에서 주어진 쿼리의 중요성이 미미하다는 것을 관찰함에 따라, 우리의 인코딩 모듈은 텍스트 쿼리의 맥락을 비디오 표현에 명시적으로 주입하기 위해 크로스-어텐션 레이어로 시작합니다. 그런 다음, 모델이 쿼리 정보를 활용하는 능력을 향상시키기 위해, 비디오-쿼리 쌍을 조작하여 관련 없는 쌍을 생성합니다. 이러한 부정적(관련 없는) 비디오-쿼리 쌍은 낮은 중요도 점수를 내도록 훈련되며, 이는 모델이 쿼리-비디오 쌍 간의 정확한 일치를 추정하도록 격려합니다. 마지막으로, 주어진 비디오-쿼리 쌍에 대한 중요도 점수의 기준을 적응적으로 정의하는 입력 적응형 중요도 예측기를 제시합니다. 우리의 광범위한 연구는 MR/HD를 위한 쿼리 의존적 표현을 구축하는 것의 중요성을 검증합니다. 특히, QD-DETR은 QVHighlights, TVSum, Charades-STA 데이터셋에서 최신 방법들을 능가합니다.
Hierarchical Multimodal Attention for Deep Video Summarization