매칭 파트는 이분 그래프 매칭을 채택해 일반적인 매칭을 학습하고,
노이즈 제거 파트는 GT 객체(GT상자-label 쌍)를 재구성하는 것을 목표로 한다.
Attention mask는 다음과 같은 목적이 있다.
Label 임베딩에 노이즈 제거 파트의 쿼리일 경우 1, 매칭 파트의 쿼리일 경우 0을 추가한다.
MSCOCO의 80개 클래스를 문구(phrase)로 간주하고, 사전 훈련된 언어 모델에서 문구 임베딩을 수집하여 "class label embedding"을 생성합니다.
아마, denosing group에 대해서만 class label embeddings를 사용한 것이 아닐까 추측.