얻을만한 아이디어
- Feature Pyramid는 확실히 성능 좋아지는 것 같아서 쓰면 좋을 것 같다.
- ASR 모듈도 Feature Pyramid로 구현할때 쓰면 좋을 것 같다.
- 그 외에, 이 논문에서 제시한 아이디어가 없는데 일부러 고도화를 안한건지 모르겠지만 발전할 점이 보인다.
- saliency token을 따로 고도화시킬수도 있을 것 같고, 위와 같이 score 대신에 IoU 예측으로 localization 성능을 측정하면 더 좋지 않을까라는 생각도 들었다.
- Dummy token은 learnable parameter로 한 것 같은데 Text에서 비롯되지 않은것같은데 CG-DETR과 다르게 간단하게 구현한건가? 라는 생각도 들었다.
Contribution
- Feautre Layering으로 다양한 길이 moment 탐지 가능
- ASR Module로 점수 측정 (원래 각 Fk 층에서 CNN으로 각 층에서의 clip들의 점수를 구했다면, 싹 다 concat하고 CNN 돌려서 구하는 점수도 추가로 구현해서 α, 1−α와 같이 가중합으로 점수 구함.
- 나머지는 CG-DETR의 ACA 차용했고, 디코더부분은 Dense Regression으로 하였음.
특이점
전체 아키텍쳐

Ablations

- Feature pyramid 쓰니까 성능이 많이 좋아짐
- 추가로 ASR 점수모듈 추가했더니 성능 좋아짐