Query-Dependent Video Representation for Moment Retrieval and Highlight Detection

FSA·2023년 11월 28일
0

video summarization

목록 보기
3/8

개념 정리

video moment retrieval(MR)

  • 주어진 video에서, 주어진 text와 관계가 있는 순간을 찾는 것
  • 1, 12, 13, 30
  • text query-video pair간 corss-modal interaction을 모델링한 접근법들
    • 32, 54, 56
  • video clips간 temporal relation의 문맥을 이해하는 접근법
    • 1, 59
  • inference spped를 향상시킨 접근법
    • FVMR: 14

Video highlight detection(HD)

  • 주어진 video에서, clip-wise importance level을 측정하는 것
  • 4, 33, 47, 57, 41, 52
  • Supervised HD
    • 15, 41, 49, 50
  • weakly supervised HD
    • 5, 36, 49
  • unsupervised HD
    • 4, 22, 33, 38
  • multi-modal (i.e. audio)
    • 3, 51

의문점 정리

  • 너의 개인 video와 queries로 돌려보고 싶으면, run_on_video/run.pyrun_example 함수를 공부해라.
  • 오디오 파일은 어떤 포멧일까?
    • 오디오 파일은 비디오로부터 어떻게 추출할 수 있는가?

prepare feature files

비디오 feature 추출

text feature 추출

  • CLIP text encoder 사용.

input

  • 여러개의 영상 clips
    • 영상 1개를 2초 길이의 clip 여러개로 잘라서 인풋으로 넣습니다. (L개)
      • 예: 1분짜리 영상 -> 30개 클립을 인풋으로
  • query를 넣습니다.
    • 예: A family is playing basketball together on a green court outside. (N개)

Output

  • center coordinate (m_c)와 width (m_6) 찾아내기
  • saliency score for each clip. {s1, s2, ..., sL}

Abstract

  • video moment retrieval(MR)과 video highlight detection(HD)를 동시에 해결
  • 주어진 text query에 대해, 중요도 점수를 측정하는게 목표
  • 문제정의: 과거 transformer 기반 연구들은, 주어진 text query와 video contents간 상관관계를 적절히 고려하지 않았습니다.
  • Query-Dependent DETR(QD-DETR) 개발
    • encoding module이 cross-attention으로 시작
      • query: video
      • key, value: text
    • negative (irrelevant) video-query pairs를 적용하여, low saliency scores 가 출력되야 하는 곳에선, 출력되도록 학습
    • 중요도 점수 기준을, 주어진 video-query에 따라 adaptive하게 정의하기 위해, input-adaptive saliency predictor 개념을 도입

Introduction

  • Moment-DETF [23] :
    • video moment retrieval(MR) 과 , Video highlight detection(HD)을 둘 다 다룰 수 있는 데이터셋인 QVHighlights를 제안함.
    • DETR 네트워크를 변형하여, text와 video token을 동시에 입력으로 받을 수 있게 함.
  • UMT [31]
    • video와 audio의 멀티모달 입력을 처리하는 transformer architectures를 제안
    • text queries는 transformer decoder에서 다룸.
  • 위 두 논문의 문제점: text query의 역할을 간과했다.
  • 제안 논문
    • text query의 역할을 중시하는 구조
    • negative video-query pairs를 추가로 이용하였다. (original pair에서 mixing해서 생성했음)
    • To apply the dynamic criterion to mark highlights for each instance, we deploy a saliency token to represent the entire video and utilize it as an input-adaptive saliency criterion.
    • transformer decoder에서 positional queries의 사용을 가능하게 한다.

Dataset

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글