영상 내에서 특정 텍스트 쿼리에 해당하는 순간을 찾아내는 작업
각 비디오 클립이 주어진 쿼리에 얼마나 부합하는지를 점수로 나타내는 작업
텍스트 쿼리의 정보를 충분히 활용하지 못하는 한계
쿼리에서 묘사하는 내용이나 행동, 사건
등을 얼마나 잘 포함하고 있는지를 반영쿼리-비디오 간의 정확한 일치도를 추정
하도록 합니다.살리에인시(중요도) 점수의 기준
을 유연하게 정의하이라이트 순간의 중심 시각
을 이용해서 중심 좌표 주변의 특징들을 풀링하고, Rank Aware Contrastive Loss
에 대한 설명이 빠져 있어, 여기서 설명하고자 한다.