cross-attention, saliency token, negative pair 모두 쓸만함
Contribution
모델 예측이 Query를 더 잘 반영하도록 인코더 위주 수정
특이점
margin loss 외에도 rank-aware contrastive loss, negative pair loss 존재 Lcont=−∑r=1Rlog∑x∈(Xrpos ∪Xrneg )exp(S(x)/τ)∑x∈Xrpos exp(S(x)/τ) Lneg=−log(1−S(xvneg))