QD-DETR (CVPR, 2023)

정준한·2025년 4월 15일

MR 논문

목록 보기
2/13

얻을만한 아이디어

  • 인코더에서 Query 반영한 인코더 구조라서 나중에 쓸만함 (또는 추가적으로 개선)
  • cross-attention, saliency token, negative pair 모두 쓸만함

Contribution

  • 모델 예측이 Query를 더 잘 반영하도록 인코더 위주 수정

특이점

  • margin loss 외에도 rank-aware contrastive loss, negative pair loss 존재
    Lcont=r=1RlogxXrpos exp(S(x)/τ)x(Xrpos Xrneg )exp(S(x)/τ)L_{\mathrm{cont}}=-\sum_{r=1}^R \log \frac{\sum_{x \in X_r^{\text {pos }}} \exp (S(x) / \tau)}{\sum_{x \in\left(X_r^{\text {pos }} \cup X_r^{\text {neg }}\right)} \exp (S(x) / \tau)}
    Lneg=log(1S(xvneg))L_{\mathrm{neg}}=-\log \left(1-S\left(x_v^{\mathrm{neg}}\right)\right)

전체 아키텍쳐

  • Cross-Attention으로 text 의미 반영
  • negative pair 훈련시킴
  • salinecy token 존재
  • 디코더 부분은 Dab-DETR 구조를 1D로 만든 것

Ablations

profile
논문 읽은거 자꾸 까먹어서 기록

0개의 댓글