논문 핵심만 정리하는 용도의 블로그

논문 핵심만 정리하는 용도의 블로그

QD-DETR (CVPR, 2023)

정준한·2025년 4월 15일

MR 논문

목록 보기

2/13

얻을만한 아이디어

인코더에서 Query 반영한 인코더 구조라서 나중에 쓸만함 (또는 추가적으로 개선)
cross-attention, saliency token, negative pair 모두 쓸만함

Contribution

모델 예측이 Query를 더 잘 반영하도록 인코더 위주 수정

특이점

margin loss 외에도 rank-aware contrastive loss, negative pair loss 존재
$L_{\mathrm{cont}}=-\sum_{r=1}^R \log \frac{\sum_{x \in X_r^{\text {pos }}} \exp (S(x) / \tau)}{\sum_{x \in\left(X_r^{\text {pos }} \cup X_r^{\text {neg }}\right)} \exp (S(x) / \tau)}$
$L_{\mathrm{neg}}=-\log \left(1-S\left(x_v^{\mathrm{neg}}\right)\right)$

전체 아키텍쳐

Cross-Attention으로 text 의미 반영
negative pair 훈련시킴
salinecy token 존재
디코더 부분은 Dab-DETR 구조를 1D로 만든 것

Ablations

논문 읽은거 자꾸 까먹어서 기록

이전 포스트

UMT (CVPR, 2022)

다음 포스트

EaTR (ICCV, 2023)

0개의 댓글