๐ก Advanced Object Detection 1 Lecture
Further Dev in 2 stage Detectors
- NLP์์ long range dependency ํด๊ฒฐ -> vision์๋ ์ ์ฉ
Overview
- Flatten 3D -> 2D (Patch ๋จ์๋ก ๋๋)
- Learnable embedding ์ฒ๋ฆฌ
- class & positional embedding ์ถ๊ฐ
- Transformer
- Predict
Contribution
- Transformer๋ฅผ ์ฒ์์ผ๋ก Object Detection์ ์ ์ฉ
- ๊ธฐ์กด์ Object Detection์ hand-crafted post process ๋จ๊ณ๋ฅผ transformer๋ก ์์ฐ
Architecture
- CNN backbone -> Transformer(Encoder-Decoder) -> Prediction Heads
- Highest level feature map๋ง ์ฌ์ฉ (๋ง์ ์ฐ์ฐ๋)
- Flatten 2D
- Positional embedding
- Encoder
- 224 x 224 input
- 7x7 feature map size
- 49๊ฐ์ feature vector -> encoder input (7x7 flattenํด์ ์ฌ์ฉ)
- Decoder
- Feed Forward Network (FFN)
- N๊ฐ(>ํ ์ด๋ฏธ์ง์ ์กด์ฌํ๋ object ๊ฐ์)์ output
Train
- Ground-truth์์ ๋ถ์กฑํ object ๊ฐ์๋งํผ no object๋ก padding ์ฒ๋ฆฌ
- Ground-truth, prediction N:N mapping
- ๊ฐ ์์ธก ๊ฐ์ด N๊ฐ unique - post-process ํ์X
ViT์ ๋ฌธ์ ์
- ๋ง์ ์์ ๋ฐ์ดํฐ ํ์
- Computational cost ํผ
- Backbone์ผ๋ก ์ฌ์ฉํ๊ธฐ ์ด๋ ค์
ํด๊ฒฐ๋ฒ
- CNN๊ณผ ์ ์ฌํ ๊ตฌ์กฐ๋ก ์ค๊ณ
- Window -> cost ๊ฐ์
Architecture
- Patch Partitioning
- Linear Embedding
- Swin Transformer Block
- Window Multi-head Attention
- Patch Merging
Patch Partition
(H,W,3)โ(H/P,W/P,PรPร3)
Linear Embedding
- ViT์ Embedding ๋ฐฉ์ ๋์ผ
- ViT์์ class embedding ์ ๊ฑฐ
- Attention 2๋ฒ ํต๊ณผ
Window Multi-Head Attention (W-MSA)
- Window ๋จ์๋ก embedding ๋๋
- Window ์์์๋ง transformer ์ํ
- Window ํฌ๊ธฐ์ ๋ฐ๋ผ computational cost ์กฐ์ ๊ฐ๋ฅ
- Window ๋ด ์ํ -> receptive field ์ ํ
Shifted Window Multi-Head Attention (SW-MSA)
- Receptive field ์ ํํ๋ ๋จ์ ํด๊ฒฐํ๊ธฐ ์ํด transformer block 2๋ฒ์งธ layer์์ ์ํ
- ๋จ๋ ๋ถ๋ถ๋ค (A, B, C)๋ฅผ ์ฎ๊น
- ๋จ๋ ๋ถ๋ถ๋ค์ masking ์ฒ๋ฆฌ -> self-attention ์ฐ์ฐ X
Patch Merging
(H,W,C)โ(H/2,W/2,4C)โ(H/2,W/2,2C)
Summary
- ์ ์ Data๋ก ํ์ต ๊ฐ๋ฅ
- Window ๋จ์ -> computation cost ์ค์
- CNN๊ณผ ๋น์ทํ ๊ตฌ์กฐ -> Backbone์ผ๋ก ํ์ฉ ๊ฐ๋ฅ
์ถ์ฒ ๋ฐ ์ฐธ๊ณ