FlashVTG (WACV, 2025)

정준한·2025년 4월 22일

MR 논문

목록 보기
12/13

얻을만한 아이디어

  • Feature Pyramid는 확실히 성능 좋아지는 것 같아서 쓰면 좋을 것 같다.
  • ASR 모듈도 Feature Pyramid로 구현할때 쓰면 좋을 것 같다.
  • 그 외에, 이 논문에서 제시한 아이디어가 없는데 일부러 고도화를 안한건지 모르겠지만 발전할 점이 보인다.
  • saliency token을 따로 고도화시킬수도 있을 것 같고, 위와 같이 score 대신에 IoU 예측으로 localization 성능을 측정하면 더 좋지 않을까라는 생각도 들었다.
  • Dummy token은 learnable parameter로 한 것 같은데 Text에서 비롯되지 않은것같은데 CG-DETR과 다르게 간단하게 구현한건가? 라는 생각도 들었다.

Contribution

  • Feautre Layering으로 다양한 길이 moment 탐지 가능
  • ASR Module로 점수 측정 (원래 각 FkF_k 층에서 CNN으로 각 층에서의 clip들의 점수를 구했다면, 싹 다 concat하고 CNN 돌려서 구하는 점수도 추가로 구현해서 α\alpha, 1α1-\alpha와 같이 가중합으로 점수 구함.
  • 나머지는 CG-DETR의 ACA 차용했고, 디코더부분은 Dense Regression으로 하였음.

특이점

  • x

전체 아키텍쳐

Ablations

  • Feature pyramid 쓰니까 성능이 많이 좋아짐
  • 추가로 ASR 점수모듈 추가했더니 성능 좋아짐
profile
논문 읽은거 자꾸 까먹어서 기록

0개의 댓글