논문 핵심만 정리하는 용도의 블로그

논문 핵심만 정리하는 용도의 블로그

FlashVTG (WACV, 2025)

정준한·2025년 4월 22일

MR 논문

목록 보기

12/13

얻을만한 아이디어

Feature Pyramid는 확실히 성능 좋아지는 것 같아서 쓰면 좋을 것 같다.
ASR 모듈도 Feature Pyramid로 구현할때 쓰면 좋을 것 같다.
그 외에, 이 논문에서 제시한 아이디어가 없는데 일부러 고도화를 안한건지 모르겠지만 발전할 점이 보인다.
saliency token을 따로 고도화시킬수도 있을 것 같고, 위와 같이 score 대신에 IoU 예측으로 localization 성능을 측정하면 더 좋지 않을까라는 생각도 들었다.
Dummy token은 learnable parameter로 한 것 같은데 Text에서 비롯되지 않은것같은데 CG-DETR과 다르게 간단하게 구현한건가? 라는 생각도 들었다.

Contribution

Feautre Layering으로 다양한 길이 moment 탐지 가능
ASR Module로 점수 측정 (원래 각 $F_k$ 층에서 CNN으로 각 층에서의 clip들의 점수를 구했다면, 싹 다 concat하고 CNN 돌려서 구하는 점수도 추가로 구현해서 $\alpha$ , $1-\alpha$ 와 같이 가중합으로 점수 구함.
나머지는 CG-DETR의 ACA 차용했고, 디코더부분은 Dense Regression으로 하였음.

특이점

x

전체 아키텍쳐

Ablations

Feature pyramid 쓰니까 성능이 많이 좋아짐
추가로 ASR 점수모듈 추가했더니 성능 좋아짐

논문 읽은거 자꾸 까먹어서 기록

이전 포스트

MR BLIP (2024)

다음 포스트

SG-DETR (2024)

0개의 댓글