
이전 post에 이어지는 내용....
RT-DETR의 computational redundancy 1 :
하지만 만약에 한 image에 object가 딱 1개 있는데 300개의 set prediction을 한다면,RT-DETR의 computational redundancy 2 : 
RT-DETR의 computational redundancy 3 : hint 정보(= predicted #objs)를 갖고,
Fusion block과 decoder에 어떻게 adaptation을 적용할 것인지? Loss는 어떻게 구성해야 할지? 생각해봐야 함.
이 글에서는 hint 정보를 어떻게 prediction할 것인지에 대한 연구 내용을 다룸.
idea 1 : backbone hint
idea 2보다 parameter와 computation은 더 많이 추가될 것 같다.idea 2 : AIFI #objs token(=hint)
ViT의 Class token에 영감을 받아, hint token을 추가하는 idea이다.
ViT class token의 동작원리와 유사하게 만들었다.
coco detection train dataset에서 한 image에서 등장하는 최대 object 개수는 90개이다.
coco detection validation dataset에서 한 image에서 등장하는 최대 object 개수는 62개이다.
