논문 핵심만 정리하는 용도의 블로그

논문 핵심만 정리하는 용도의 블로그

LLMEPET (ACM MM, 2024)

정준한·2025년 4월 22일

MR 논문

목록 보기

10/13

얻을만한 아이디어

plug-in 방식으로 만들어진 것이라 차용해서 써볼만도 한 것 같다.
EaTR처럼 각잡고 디코더를 개발한 것이 아니라 Loss만 추가해서 학습하는 것인데 어떤 것이 더 좋을지 생각해봐야할듯함
LLM Encoder를 넣었을 때, 성능이 진짜 제대로 향상되는지도 테스트를 한번 해봐야될 것 같음

Contribution

Plug-in 방식으로 기존 모델(CG-DETR 등)에 결합 가능
LLM 인코더로 video feature를 정제함
Event Detector(UBoCo)로 pseudo Event를 뽑고 그것으로 loss 구성
위 2개의 방식은 모두 plug-in 방식으로 사용

특이점

LLM 인코더의 일부층만을 사용하여 정제
기존의 Moment-DETR 구조의 인코더 부분에서 Interaction 완료된 Video Feature가 나오면 그 후에, LLM을 한 번 더 거치는 식의 구조
UBoCo로 Pseudo Event 만들고, 예측한 moment와 loss 계산 및 positional embedding loss 계산

전체 아키텍쳐

Ablation

baseline은 QD-DETR이고 각 구성요소에 따른 성능증가
모든 모델들에 결합했을 때의 성능 비교 (다만, LLM으로 인한 성능증가인지, Event로 인한 성능증가인지는 모르겠음)

논문 읽은거 자꾸 까먹어서 기록

이전 포스트

R2-Tuning (ECCV, 2024)

다음 포스트

MR BLIP (2024)

0개의 댓글