
인코더로 공급되는 시퀀스 길이가 크게 늘어남스케일 내 상호 작용과 스케일 간 융합을 분리함으로써, 인코더는 다양한 스케일의 feature들을 효율적으로 처리 학습 confidence loss 부분에 IoU 제약 조건을 제공하여, score가 높은 query만 살리고 나머지는 제거함으로써,재학습 없이 다양한 디코더 레이어를 사용하여 inference 속도의 유연한 조정을 지원
특히 백본의 마지막 세 단계의 출력 feature{S3,S4,S5}를 인코더에 대한 입력으로 활용
하이브리드 인코더는 스케일 내 상호 작용과 스케일 간 융합을 통해 멀티스케일 feature를 일련의 이미지 feature로 변환
이어서, IoU-aware query selection은

이미지의 물체에 대한 풍부한 semantic 정보를 포함하는 높은 수준의 feature(S5)는, 낮은 수준의 feature(S3)에서 추출된다. 
상위 수준 feature(S5)에 self-attention 연산을 적용하면, 이미지의 개념적 엔터티 간의 연결을 캡처할 수 있음


학습 가능한 임베딩의 집합

HGNetv2로 대체