๐ ๋ณธ ๋ฆฌ๋ทฐ๋ DETR ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ฉโ๐ป ์ค๋์ DETR์ ๋ํด ๋ฆฌ๋ทฐํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. DETR์ transformer์ ์ฌ์ฉํ End-to-End object detection์ ๋๋ค. Transformer๊ฐ ์ธ์์ ๋์จ ์ดํ ๋ง์ ๋ถ์ผ์์ ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ก ๋์ transformer๋ฅผ ์ ์ฉํ๊ณ ์์ต๋๋ค. DETR์ ๊ธฐ์กด Transformer ์ํคํ ์ฒ์ object detection์ ๋ํ ๊ธฐ๋ณธ์ ์ธ ์ง์๋ง ์๋ค๋ฉด ์์ํ๊ฒ ์ฝ์ ์ ์๋ ๋ ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐ๋ฉ๋๋ค.
๐ Removing NMS and anchor generation
๐ Transforemr encoder-decoder architecture
๐ Bipartite matching(์ด๋ถ ๋งค์นญ)
โ Object detection์ ๋ชฉ์ ์ bounding box์ ์งํฉ๊ณผ ๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ๋ผ๋ฒจ๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋๋ค. ํ๋์ detector๋ค์ ๋ง์ set of proposals, anchors ๋ฑ๊ณผ ๊ฐ์ ๊ฐ์ ์ ์ธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด ์์ธก์ ์ํํฉ๋๋ค. ๋ํ ์ค๋ณต์ ์ ๊ฑฐํ๋ postprocessing step์ด๋ heuristicsํ ๋ฐฉ๋ฒ์ผ๋ก ์ ํ๋ anchor๋ค์ด ๋ง์ ์ํฅ์ ์ค๋๋ค.
โ DETR์ training pipeline์ ๊ฐ์ํํด ์ง์ ์ ์ผ๋ก detecting ํ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค. ์ฆ, ์์์ ์ธ๊ธํ postprocessing ๋ฐฉ๋ฒ๋ค์ ๊ฐ์ํ ํ๋ค๊ณ ๋งํ ์ ์์ต๋๋ค. ์ด์ ๋ํ ๋ฐฉ๋ฒ์ผ๋ก self-attention ๊ธฐ๋ฐ์ธ transformer๋ฅผ ์ฑํํ๊ณ , ์ด๋ ์ค๋ณต์ ์ ๊ฑฐํ๋ ๊ฒ(ex.NMS)์ ๋งค์ฐ ์ ํฉํ๋ค๊ณ ์ด์ผ๊ธฐํฉ๋๋ค.
โ DETR์ ๋ชจ๋ ๊ฐ์ฒด๋ฅผ ํ ๋ฒ์ ์์ธกํ๋ฉฐ, predicted์ ground-truth objects์ bipatite matching(์ด๋ถ ๋งค์นญ) loss function์ ์ฌ์ฉํด end-to-end๋ก ํ์ตํฉ๋๋ค. DETR์ ์กด์ฌํ๋ ๋ค๋ฅธ detection๋ค๊ณผ ๋ค๋ฅด๊ฒ, customized layer๊ฐ ํ์ํ์ง ์๋ค๊ณ ์ด์ผ๊ธฐ ํฉ๋๋ค. ๋ฐ๋ผ์ ๋ชจ๋ ํ๋ ์ ์ํฌ์์ ์ฝ๊ฒ ์ฌํํ ์ ์์ต๋๋ค.
โ ๊ฒฐ๊ณผ์ ์ผ๋ก DETR์ ๋ณ๋ ฌ์ ์ธ decoding transforemr์ bipatite matching(์ด๋ถ ๋งค์นญ)์ด ๊ฒฐํฉ๋ ๊ตฌ์กฐ๋ผ๊ณ ์ด์ผ๊ธฐ ํ ์ ์์ต๋๋ค. bipatite matching(์ด๋ถ ๋งค์นญ) loss fucntion์ ๊ฐ๊ฐ์ predicted๋ฅผ GT object์ uniqueํ๊ฒ ํ ๋นํ๋ฉฐ, ์์ธก๋ ๊ฐ์ฒด์ ์์ด์๋ ๋ถ๋ณํจ์ผ๋ก, ๋ณ๋ ฌ๋ก ๋ด๋ณด๋ผ ์ ์์ต๋๋ค.
โ DETR์ large objects์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ์๋์ ์ผ๋ก small object์ ๋ํด์๋ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ CNN์ feature map์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, small object์ ๋ํ ์ฑ๋ฅ์ด ๋ฎ์ ๊ฒ์ด๋ผ๋ ์ถ์ธก์ ํด๋ณผ ์ ์์ต๋๋ค.
โ DETR์ ๋งค์ฐ ๊ธด training schedule์ด ํ์ํ๋ฉฐ, transformer ๋ณด์กฐ decoding loss์ ์ฌ์ฉํด benefits์ ์ป์ ์ ์์ต๋๋ค.
โ ๋จผ์ Set(์งํฉ)์ ์๋ฏธ์ ๋ํด์ ์๊ฐํด๋ด์ผํฉ๋๋ค. Set(์งํฉ)์ด๋ ์์๊ฐ ์์ผ๋ฉฐ, ์ค๋ณต์ด ์๋ ๊ฒ๋ค์ ์๋ฏธํฉ๋๋ค. ๊ธฐ์กด์ detector๋ค์ ์ด๋ ค์ ์ค ํ๋๋ ๋ฐ๋ก ์ค๋ณต์ ํผํ๋ ๊ฒ์ด์์ผ๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ์ํด NMS์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ ์ฌ์ฉํ์ต๋๋ค. ํ์ง๋ง DETR์ direct set predicttion์ NMS์ ๊ฐ์ postprocessing์ด ํ์ํ์ง ์์ต๋๋ค. ์ด๋ Hungarain algorithm์ ๊ธฐ๋ฐ์ผ๋กํ bipatite matching(์ด๋ถ ๋งค์นญ) loss function์ ์ฌ์ฉํด ๋ณด์ฅํ ์ ์์ต๋๋ค.
โ bipatite matching(์ด๋ถ ๋งค์นญ)
โ Direct set predictions in detection
โ DETR์์๋ decoder์์ ๊ณ ์ ๋ N predictions ์ฌ์ด์ฆ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฌ๊ธฐ์ N์ ํ ์ด๋ฏธ์ง์์ ๋ณด์ฌ์ง๋ ๊ฐ์ฒด์๋ณด๋ค ๋ ํฐ ์๋ก ์ง์ ํด์ผํฉ๋๋ค. ๊ณ ์ ๋ N predictions์ ์ถํ decoder์ ๋ํ ๋ด์ฉ์ ๋ค๋ฃฐ๋ ๋์ฑ ์์ธํ๊ฒ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
โ ๊ฐ GT๊ฐ๊ณผ prediction ๊ฐ์ด ํฉ์ด ๊ฐ์ฅ ์์ ๊ฒ์ ๊ตฌํ๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค.
โ ์์ ๊ฐ์ด ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ฉฐ, ๊ฐ๊ฐ์ ๋ ํ์ผ ํด๋ ์ค ๋ ์ด๋ธ, ๋ GT box์ ์ค์ฌ ์ขํ์ ๋์ด์ ๋๋น์ ์๋์ ์ธ ์ฌ์ด์ฆ๋ก ์ ์๋ฉ๋๋ค. ์์ ๊ฐ์ matching์ ์ฐพ๋ ๋ฐฉ๋ฒ์ ๊ธฐ์กด์ heuristicํ ๋ฐฉ๋ฒ์ผ๋ก ์ฐพ๋ match proposal๊ณผ anchors๊ณผ ๊ฐ์ ์ญํ์ ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
โ ๋ค์ ์คํ ์ผ๋ก Hungarain loss function๋ฅผ ์ํํฉ๋๋ค.
โ Hungarain loss function๋ ์์ ์์ผ๋ก ์ ์๋๋ฉฐ, ์ฌ๊ธฐ์ ์ค์ํ ๊ฑด class imbalance๋ฅผ ๊ณ ๋ คํด log-probability term์ ๋ํด object๊ฐ no object์ผ ๊ฒฝ์ฐ 1/10๋ก ์ค์ฌ ๊ณ์ฐํ๋ค๊ณ ํฉ๋๋ค.
โ ์ Hungarain loss function์์ ๋ ๊ธฐ์กด์ detector๋ค์์ ์ฌ์ฉํ๋ offset์ ์ฌ์ฉํ์ง ์๊ณ , L1 loss ๊ณผ GIoU(Generalized Iou)๋ฅผ ์ฌ์ฉํด ๊ณ์ฐ์ ์ํํฉ๋๋ค. ๊ฐ๊ฐ์ ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ ์ ๋๋ค. ๋ํ ์์ ๋ loss๋ ๋ฐฐ์น ๋ด๋ถ์ ๊ฐ์ฒด ์์ ์ํด ์ ๊ทํ๋ฉ๋๋ค.
โ DETR ์ํคํ ์ฒ๋ ๋งค์ฐ ๊ฐ๋จํ๊ฒ ๊ตฌ์ฑ๋์ด์์ต๋๋ค. 3๊ฐ์ง ๋ฉ์ธ ์์๋ค์ด ์กด์ฌํ๋๋ฐ, CNN backbone ์ํคํ ์ณ์ encoder-decoder transformer ๊ทธ๋ฆฌ๊ณ simple feed forward network(FFN)์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ์์ ๊ทธ๋ฆผ์ด DETR์ ์์ธ ์ํคํ ์ฒ ๊ตฌ์กฐ์ธ๋ฐ, ๊ฑฐ์ ๊ธฐ์กด์ transformer์ ๋น์ทํ ๊ฒ์ ์ ์ ์์์ต๋๋ค.
โ Backbone์์์ ๋ง์ง๋ง feature map size๋ C = 2048 ๊ทธ๋ฆฌ๊ณ H,W = H/32, w/32 ์ ๋๋ค. ์ด๋ ๊ธฐ๋ณธ์ ์ผ๋ก Resnet50์ ์ฌ์ฉํด ์์ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
โ Transformer encoder๋ ์ฒ์์ d dimension์ผ๋ก mapping์ ํด์ฃผ๋ฉฐ, encoder์ input์ผ๋ก ๋ฃ๊ธฐ ์ํด ์ฐจ์์ผ๋ก ๋ณํํด์ค๋๋ค. ๋ํ transformer ์ํคํ ์ฒ๋ permutaion-invariant ์ด๋ฏ๋ก, ๊ฐ ๊ณ์ธต์ ์ ๋ ฅ์ ๊ณ ์ ๋ position encoding์ ์ถ๊ฐํด ๋ณด์ํฉ๋๋ค.
โ Decoder์ ๊ฒฝ์ฐ ๊ธฐ์กด์ transformer ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ๊ฐ๋ฉฐ, multi-headed self ๊ทธ๋ฆฌ๊ณ encoder-decoder attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํด N์ ์๋ฒ ๋ฉ ์ฌ์ด์ฆ d๋ก ๋ณํํฉ๋๋ค. ๊ธฐ์กด์ ๊ตฌ์กฐ๋ ๋ค๋ฅธ ์ ์ DETR์ N obects๋ฅผ ๋ณ๋ ฌ๋ก ๋์ฝ๋ฉ ํ๋ค๋ ์ ์ ๋๋ค. ์ฌ๊ธฐ์ N์ ์์ ์ด์ผ๊ธฐ ํ ๊ฒ๊ณผ ๊ฐ์ ํ ์ด๋ฏธ์ง์์ ๋ณผ ์์๋ ๊ฐ์ฒด ์ ์ด์์ ์ง์ ํด์ผํฉ๋๋ค. ์๋ฅผ ๋ค์ด COCO์์ ํ ์ด๋ฏธ์ง์ ์ต๋ 63๊ฐ์ ๊ฐ์ฒด๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ฉด, ์ต์ํ 63๊ฐ ์ด์์ N์ ์ง์ ํด์ผํฉ๋๋ค.
โ Decoder ๋ํ permutation-invariant ํ๊ธฐ ๋๋ฌธ์, N์ input embedding์ ํญ์ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํด์ผํฉ๋๋ค. Decoder์ input embedding์ object queries(N)๋ผ๊ณ ํ๋ ํ์ต๋ position encoding์ด๋ฉฐ, ์ธ์ฝ๋์ ์ ์ฌํ๊ฒ ๊ฐ attention layer์ ์ถ๊ฐํฉ๋๋ค.
โ N๊ฐ์ object queries๋ ๋์ฝ๋๋ฅผ ํตํด output embedding์ผ๋ก ๋ณํ๋ฉ๋๋ค. ๊ทธ๋ค์ box ์ขํ์ class label๋ก FFN์ ํตํด ๋ ๋ฆฝ์ ์ผ๋ก ๋์ฝ๋๋ฉ๋๋ค.
โ ๋ง์ง๋ง prediction์ 3๊ฐ์ ReLU๊ฐ ํฌํจ๋ ํผ์ ํธ๋ก ๊ณผ hidden ์ฐจ์ d, ๊ทธ๋ฆฌ๊ณ linear projection layer๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. FFN์ ํ์คํ๋ ์ขํ์ box์ ๋๋น์ ๋์ด๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๋ํ class label์ softmax๋ฅผ ์ฌ์ฉํด ์์ธกํ๋ฉฐ, ๊ณ ์ ๋ N๊ฐ์ bbox set์ ์์ธกํฉ๋๋ค.
๐ ๋น๊ต ๋ชจ๋ธ: Faster R-CNN
๐ Dataset: COCO minival
๐ Optimizer: AdamW
๐ Backbone: ResNet50(pre-train ImageNet), ResNet101(pre-train ImageNet) call DETR-R101
๐ additional: Conv5 layer์ stride๋ฅผ ์ญ์ ํ๊ณ dilation ๋ฐฉ๋ฒ์ ์ถ๊ฐํด resolution์ ์ฆ๊ฐ์์ผฐ๋ค.(RETR-DC5),
๐ Scal augmentation, Random crop augmentation, Add dropout 0.1
โ Faster R-CNN๊ณผ DETR์ ๋น๊ต ๊ฒฐ๊ณผ ํ ์ด๋ธ ์ ๋๋ค. DETR-DC5-R101์์ ๊ฐ์ฅ ๋์ AP๋ฅผ ํ์ธ ํ ์ ์์ผ๋ฉฐ, ๋ชจ๋ ์์ญ์์ ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ ์์ง๋ง, ๋๋ถ๋ถ์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
โ ์์ ์ฌ์ง์ Encoder self-attention์ attention map์ ๋ณด์ฌ์ฃผ๋๋ฐ, ์ด๋ ๊ฐ๊ฐ์ ๊ฐ์ฒด๋ฅผ ์ ๊ตฌ๋ถํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
โ ์ด๋ ๊ฐ๊ฐ์ decoder์์์ prediction slot์ visualizationํ ๊ทธ๋ํ์ ๋๋ค. ๊ฐ๊ฐ์ slot๋ค์ ํน์ ๋ฒ์์ ๋ํด ๊ตฌ์ฒดํ ํ๋๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
โ ์ด ์ธ์๋ ๋ค์ํ ์คํ๊ฒฐ๊ณผ๋ฅผ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํด์ฃผ๊ณ ์์ต๋๋ค. ablation์ ํตํด ์ ์๋ ๋ฐฉ๋ฒ๋ก ๋ค์ ๋ํ ์คํ ๊ฒฐ๊ณผ์ decoder, encoder layer์ ๋ฐ๋ณต ํ์์ ๋ฐ๋ฅธ ์คํ ๊ฒฐ๊ณผ ๋ฑ์ ์ ์ํ๊ณ ์์ต๋๋ค. ๊ถ๊ธํ์๋ค๋ฉด ํ ๋ฒ์ฏค ์ฝ์ด๋ณด์๋ ๊ฑธ ์ถ์ฒ๋๋ฆฝ๋๋ค. ๋ํ DETR for panoptic sementation์ ์ํํ๋๋ฐ ์ด๋ ์๋์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ํฉ๋๋ค.