인코더로 공급되는 시퀀스 길이가 크게 늘어남
스케일 내 상호 작용과 스케일 간 융합을 분리
함으로써, 인코더는 다양한 스케일의 feature들을 효율적으로 처리 학습 confidence loss 부분에 IoU 제약 조건을 제공하여
, score가 높은 query만 살리고 나머지는 제거함으로써,재학습 없이 다양한 디코더 레이어를 사용
하여 inference 속도의 유연한 조정을 지원특히 백본의 마지막 세 단계의 출력 feature{S3,S4,S5}를 인코더에 대한 입력으로 활용
하이브리드 인코더는 스케일 내 상호 작용과 스케일 간 융합을 통해 멀티스케일 feature를 일련의 이미지 feature로 변환
이어서, IoU-aware query selection
은
이미지의 물체에 대한 풍부한 semantic 정보를 포함하는
높은 수준의 feature(S5)는, 낮은 수준의 feature
(S3)에서 추출된다. 상위 수준 feature
(S5)에 self-attention 연산을 적용하면, 이미지의 개념적 엔터티 간의 연결을 캡처할 수 있음학습 가능한 임베딩의 집합
HGNetv2
로 대체