

이 논문은 처음으로 object detection을 a direct set prediction problem으로 바라보는 방법을 제안한다.
저자들의 approach는 "effectively removing the need for many hand-designed components like a NMS suppression procedure or anchor generation"
제안하는 framework를 DEtection TRansformer (DETR)이라고 부른다.
DETR의 핵심 ingrdients는 "a set-based global loss that forces unique predictions via bipartite matching, and a transformer encoder-decoder architecture."이다.



