๐ฑ MobileNetV4 ์์ ๋ถ์: ๋
ผ๋ฌธ ๊ธฐ๋ฐ + ์ด๋ณด์ ์นํ + ์ค์ ์ ์ฉ ์ ๋ฆฌ
๐ ๋
ผ๋ฌธ ๋งํฌ: MobileNetV4: Universal Models for the Mobile Ecosystem (2024)
๐ MobileNetV4๋?
MobileNetV4๋ ๋ชจ๋ฐ์ผ/์ฃ์ง ๋๋ฐ์ด์ค์์ ์ค์๊ฐ ์ถ๋ก ์ด ๊ฐ๋ฅํ ๊ฒฝ๋ ๊ณ ์ฑ๋ฅ CNN ๋ชจ๋ธ์
๋๋ค. NAS๋ฅผ ํ์ฉํด ๊ตฌ์กฐ๋ฅผ ์๋ ์ค๊ณํ๊ณ , UIB ๋ธ๋ก, MQA, Hard-Swish, ConvNeXt ์คํ์ผ FFN ๋ฑ ๋ค์ํ ๊ธฐ์ ์ ๊ฒฐํฉํด ์ ํ๋์ ์๋, ๊ฒฝ๋์ฑ์ ๋ชจ๋ ๋ฌ์ฑํ์ต๋๋ค.
๐ง ํต์ฌ ๊ธฐ์ + MobileNetV4์์์ ์ค์ ํ์ฉ
โ
1. UIB (Universal Inverted Bottleneck) ๋ธ๋ก
- ๊ธฐ์กด Inverted Bottleneck ๊ตฌ์กฐ๋ฅผ ์ผ๋ฐํํ ๋ธ๋ก์ผ๋ก, ๋ค์ 4๊ฐ์ง ๊ตฌ์กฐ ์กฐํฉ ์ค NAS๋ก ์ ํ๋ฉ๋๋ค:
- Extra Depthwise Conv
- ConvNeXt ์คํ์ผ FFN
- Inverted Bottleneck (MobileNetV2)
- ๊ธฐ๋ณธ FFN
MobileNetV4์์ ์ด๋ป๊ฒ ์ฐ์๋?
- NAS๊ฐ ๊ฐ ๋ ์ด์ด๋ง๋ค ์ต์ ์ UIB ๋ณํ์ ์๋ ํ์
- ๋ชจ๋ธ์ ํฌ๊ธฐ์ ์ ํ๋๋ฅผ ์กฐ์ ํ ์ ์๋๋ก ๋ค์ํ ์กฐํฉ ๊ตฌ์ฑ ๊ฐ๋ฅ
- ๊ตฌ์กฐ ๋ค์์ฑ ํ๋ณด๋ก ํ๋์จ์ด ๋ณ ์ต์ ํ ๊ฐ๋ฅ
โ
2. MQA (Mobile-Friendly Query Attention)
- ๊ธฐ์กด Multi-Head Attention์ ๊ณ์ฐ๋์ ์ค์ด๊ธฐ ์ํ ๊ฒฝ๋ attention ๊ตฌ์กฐ
MobileNetV4์์ ์ด๋ป๊ฒ ์ฐ์๋?
- Query๋ ๋ค์ค ํค๋ ์ฌ์ฉ, Key/Value๋ ๊ณต์ โ ์ฐ์ฐ๋ ๊ฐ์
- ๋ชจ๋ ๋ธ๋ก์ ์ฌ์ฉํ์ง ์๊ณ , ์ผ๋ถ UIB์๋ง ์ ํ์ ์ผ๋ก ์ ์ฉ
- Edge TPU ๊ธฐ์ค ์ต๋ 39% latency ๊ฐ์๋ฅผ ๊ธฐ๋กํจ
โ
3. Swish vs Hard-Swish
| ํญ๋ชฉ | Swish | Hard-Swish |
|---|
| ์์ | xโ
ฯ(x) | xโ
6ReLU6(x+3)โ |
| ์๋ | ๋๋ฆผ (Sigmoid ํฌํจ) | ๋น ๋ฆ (ReLU ๊ธฐ๋ฐ) |
| ์ฑ๋ฅ | ์ ํ๋ ๋์ | ๊ทผ์ ํ ์ฑ๋ฅ |
| ๋ชจ๋ฐ์ผ ์ ํฉ์ฑ | โ ๋ฎ์ | โ
๋์ |
MobileNetV4์์ ์ด๋ป๊ฒ ์ฐ์๋?
- ๋ชจ๋ธ ์ ์ฒด์ Hard-Swish ์ฌ์ฉ
- Swish๋ณด๋ค ๋น ๋ฅด๊ณ ๊ฐ๋ณ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ฐ์ผ ๋๋ฐ์ด์ค ์ต์
โ
4. Depthwise Convolution
- ๊ฐ ์ฑ๋๋ณ๋ก ํฉ์ฑ๊ณฑ์ ์ํํด ์ฐ์ฐ๋์ ํฌ๊ฒ ์ค์ด๋ ๋ฐฉ์
MobileNetV4์์ ์ด๋ป๊ฒ ์ฐ์๋?
- ๋ชจ๋ UIB ๋ธ๋ก์์ Depthwise Separable Conv ๊ธฐ๋ฐ ๊ตฌ์กฐ ์ฌ์ฉ
- ConvNeXt FFN์์๋ ์ฌ์ฉ๋จ โ ํ๋ผ๋ฏธํฐ ์ ๊ฐ + ์ฑ๋ฅ ์ ์ง
โ
5. ConvNeXt ์คํ์ผ FFN
- ๊ตฌ์กฐ: 7x7 Depthwise + GELU + 1x1 Conv
MobileNetV4์์ ์ด๋ป๊ฒ ์ฐ์๋?
- UIB ๋ด์์ FFN ๋ธ๋ก์ผ๋ก ์ ํ๋ ๊ฒฝ์ฐ ConvNeXt ๊ตฌ์กฐ ๊ธฐ๋ฐ FFN ์ฌ์ฉ
- ViT์ MLP ํํ๋ ฅ์ CNN์ผ๋ก ํ๋ด ๋ธ ๊ตฌ์กฐ๋ก ์ฑ๋ฅ ํฅ์ ๊ธฐ์ฌ
โ
6. SE (Squeeze-and-Excitation)
- ์ฑ๋ ์ค์๋๋ฅผ ํ์ตํด ๊ฐ์กฐํ ํน์ง์ ๊ฐ์ค์น๋ฅผ ์ค
MobileNetV4์์ ์ด๋ป๊ฒ ์ฐ์๋?
- UIB ๋ธ๋ก์ ์ ํ์ ์ผ๋ก ์ฝ์
- MQA์ ํจ๊ป ์ฌ์ฉ๋ ๊ฒฝ์ฐ ํผ์ฒ ๊ฐ์กฐ ํจ๊ณผ ๊ทน๋ํ
โ
7. NAS (Neural Architecture Search)
MobileNetV4์์ ์ด๋ป๊ฒ ์ฐ์๋?
- ๊ธฐ์กด๋ณด๋ค ๋ฒ์ฉ์ ์ธ ํ์ ๊ณต๊ฐ ์ค์
- ๊ฐ ๋ ์ด์ด๋ง๋ค UIB ๋ณํ์ ์๋ ์ ํ
- ๋ชจ๋ธ ํฌ๊ธฐ(M, L, XL) ๋ NAS๋ก ์กฐ์ ๋จ
โ
8. Real-time Prediction & Edge Device ์ต์ ํ
MobileNetV4์์ ์ด๋ป๊ฒ ์ฐ์๋?
- ๊ตฌ์กฐ๊ฐ ๋งค์ฐ ๊ฒฝ๋ + latency ์ต์ํ ์ค๊ณ
- MQA, Hard-Swish, DepthwiseConv ์กฐํฉ์ผ๋ก ์ค์๊ฐ ์์ธก ๊ตฌํ
- ๋ค์ํ Edge ๊ฐ์๊ธฐ ํ๊ฒฝ (TPU, GPU, DSP) ํ
์คํธ ๊ธฐ๋ฐ ์ต์ ํ
๐งฑ ์ ์ฒด ๊ตฌ์กฐ ์์

๐ ์ฑ๋ฅ ๋น๊ต (๋
ผ๋ฌธ ๊ธฐ์ค)
| ๋ชจ๋ธ | Top-1 ์ ํ๋ (%) | MACs (M) | Latency (ms) |
|---|
| MobileNetV3-Large | 75.2 | 219 | 8.2 |
| EfficientNet-lite0 | 76.8 | 390 | 15.4 |
| MobileNetV4-M | 78.1 | 205 | 6.7 |
โ๏ธ ์ ํ๋, ์ฐ์ฐ๋, ์๋ ๋ชจ๋ ์
๊ทธ๋ ์ด๋
โ
์์ฝ
| ๊ตฌ์ฑ์์ | MobileNetV4์์์ ์ ์ฉ ๋ฐฉ์ |
|---|
| UIB | NAS ๊ธฐ๋ฐ ๋ค์ํ ์ฐ์ฐ ๊ตฌ์กฐ ์๋ ์ ํ |
| MQA | ์ ํ์ attention ์ ์ฉ์ผ๋ก ์ ํ๋ ํฅ์ |
| Hard-Swish | ์ ์ฒด ํ์ฑํ ํจ์๋ก ์ฌ์ฉ, ๊ฒฝ๋ํ |
| DepthwiseConv | ๋ชจ๋ ์ฃผ์ ์ฐ์ฐ์ ํ์ฉ, ์ฐ์ฐ๋ ์ ๊ฐ |
| SE | ํผ์ฒ ๊ฐ์กฐ๋ฅผ ์ํ attention ๋ชจ๋ |
| ConvNeXt FFN | ํํ๋ ฅ ๊ฐํ๋ฅผ ์ํ ์ฑ๋ ๊ฐ FFN |
| NAS | ๊ตฌ์กฐ ์๋ ํ์ ๋ฐ ์ต์ ํ |
| Edge ์ต์ ํ | ์ค์๊ฐ ์ถ๋ก , ๋ฎ์ latency ์ค๊ณ ๋ชฉํ |