ResNet : Deep Residual Learning for Image Recognition (2015)

kellsieยท2025๋…„ 2์›” 16์ผ

๋…ผ๋ฌธ๋ฆฌ๋ทฐ

๋ชฉ๋ก ๋ณด๊ธฐ
1/12

Original Paper (Arxiv) : ResNet (https://arxiv.org/pdf/1512.03385)

๐Ÿ“ฅBackground

VGGNet

  • ๋งค์šฐ ์ž‘์€ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐœ์ˆ˜๊ฐ€ ๊ฐ์†Œํ–ˆ๊ณ , ๋น„์„ ํ˜•์„ฑ์ด ์ฆ๊ฐ€ํ•˜์—ฌ ๋” ๋ณต์žกํ•œ ํŒจํ„ด๋„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ.
  • ์„ ํ–‰ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์ธต์„ ๋งค์šฐ ๊นŠ๊ฒŒ ์Œ“์Œ์œผ๋กœ์จ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ํ™•์ธํ–ˆ์Œ.

etc.

  • ์ €์ž ์ค‘ ํ•œ ์‚ฌ๋žŒ์ธ Kaiming He๊ฐ€ He ์ดˆ๊ธฐ๊ฐ’์„ ์ œ์•ˆํ•œ ๊ทธ He์ž„.

๐Ÿ“„Paper Review

๐Ÿšจํ•ด๋‹น ๋…ผ๋ฌธ์€ Introduction์— ํ•ต์‹ฌ ๊ฐœ๋…์„ ๋ชจ๋‘ ์„ค๋ช…ํ•˜๊ณ  ์ดํ›„ ๋ณธ๋ก ์—์„œ๋Š” ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์œ„์ฃผ๋กœ ์ฆ๋ช…ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ „๊ฐœ๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ 1 Introduction ๋ถ€๋ถ„์— ๋งŽ์€ ๋‚ด์šฉ์ด ๋‚˜์™€๋„ ๋‹นํ™ฉํ•˜์ง€ ๋งˆ์‹œ๊ณ  ์ฒœ์ฒœํžˆ ์ฝ์œผ์‹œ๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค.๐Ÿšจ

0 Abstract

  • ๊นŠ์€ ์‹ ๊ฒฝ๋ง์€ ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ต๊ธฐ์— ์ด์ „๊นŒ์ง€๋ณด๋‹ค ๋” ๊นŠ์€ ์‹ ๊ฒฝ๋ง์„ ์‰ฝ๊ฒŒ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด Residual Learning Framework๋ฅผ ์ œ์•ˆํ•จ.
  • VGGnet๋ณด๋‹ค 8๋ฐฐ ๊นŠ์€ 152๊ฐœ ์ธต์˜ ์‹ ๊ฒฝ๋ง์— ๋Œ€ํ•ด ์—ฐ๊ตฌํ•จ. ์ด๋•Œ ํ•ด๋‹น ๋„คํŠธ์›Œํฌ์˜ ๋ณต์žก๋„๋Š” ์˜คํžˆ๋ ค ์ด์ „๋ณด๋‹ค ๋‚ฎ์Œ.
  • ImageNet ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•˜์—ฌ 3.57%์˜ ์˜ค์ฐจ๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ILSVRC 2015 ์—์„œ 1์œ„๋ฅผ ์ฐจ์ง€ํ•จ.
  • COCO ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ 28%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์—ˆ๊ณ , COCO 2015 ์—์„œ 1์œ„๋ฅผ ์ฐจ์ง€ํ•จ.
  • ๋”๋ถˆ์–ด, ImageNet detection, ImageNet localization, COCO detection, COCO segmentation ์—์„œ๋„ 1์œ„๋ฅผ ์ฐจ์ง€ํ•จ.
    • ImageNet detection : ์—ฌ๋Ÿฌ ๊ฐœ ์˜ ๊ฐ์ฒด ๊ฒ€์ถœ
    • ImageNet Localization : ํ•˜๋‚˜ ์˜ ์ฃผ์š” ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ํด๋ž˜์Šค ์˜ˆ์ธก
    • COCO detection : ๊ฐ์ฒด๋ฅผ bounding box๋กœ ๊ฐ์‹ธ๋Š” ๋ฐฉ์‹
    • COCO segmentation : ๊ฐ์ฒด์˜ ์œค๊ณฝ์„ ์„ ์ •ํ™•ํ•˜๊ฒŒ ๋”ฐ๋ผ๊ฐ€๋ฉด์„œ ํ”ฝ์…€ ๋‹จ์œ„๋กœ ๋ถ„ํ• 


1 Introduction

  • ์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์„ ํ†ตํ•ด ๋„คํŠธ์›Œํฌ์˜ ๊นŠ์ด๊ฐ€ ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์•Œ์•„๋ƒˆ์Œ.
  • ImageNet ๋ฐ์ดํ„ฐ์…‹์—์„œ 16~30๊ฐœ์˜ ๊นŠ์€ ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , ์ด์™ธ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด์„œ๋„ ๊ฐ™์€ ์–‘์ƒ์„ ๋ณด์ž„.

    โ“๊ทธ๋Ÿฐ๋ฐ ์‹ ๊ฒฝ๋ง์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ๋‹จ์ˆœํžˆ ๋ ˆ์ด์–ด ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ•œ๊ฐ€?

1-1 Two Problems due to deep layers

1. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค/๋ฐœ์‚ฐ ๋ฌธ์ œ โ†’ ํ•ด๊ฒฐ ๊ฐ€๋Šฅ!

  • ๋„คํŠธ์›Œํฌ๊ฐ€ ๊นŠ์–ด์งˆ์ˆ˜๋ก ๊ธฐ์šธ๊ธฐ๊ฐ€ ์†Œ์‹ค๋˜๊ฑฐ๋‚˜ ๋ฐœ์‚ฐ๋˜์–ด ์ˆ˜๋ ด์„ ๋ฐฉํ•ดํ•˜๊ณ , ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์ด ์ œ๋Œ€๋กœ ํ•™์Šตํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ๋จ.
  • ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”, Batch Normalization ๋“ฑ์˜ ์ •๊ทœํ™” ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋„ SGD์™€ ์—ญ์ „ํŒŒ๋ฅผ ํ†ตํ•ด ์ˆ˜๋ ด ๊ฐ€๋Šฅํ•จ.

2. ๊นŠ์ด์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ โ†’ ResNet ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ

  • ์ธต์ด ๊นŠ์–ด์ง์— ๋”ฐ๋ผ accuracy saturation (์ •ํ™•๋„ ํฌํ™”)์™€ ๊ธ‰๊ฒฉํ•œ degradation (์„ฑ๋Šฅ ์ €ํ•˜) ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•จ.
    • accuracy saturation : ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•˜๊ฑฐ๋‚˜ ๋” ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋”๋ผ๋„ ์ •ํ™•๋„๊ฐ€ ๋” ์ด์ƒ ์ฆ๊ฐ€ํ•˜์ง€ ์•Š๋Š” ํ˜„์ƒ. ์ฆ‰, ์„ฑ๋Šฅ์ด ๋‚˜๋น ์ง€์ง„ ์•Š์ง€๋งŒ, ๊ทธ๋ ‡๋‹ค๊ณ  ๊ฐœ์„ ๋˜์ง€๋„ ์•Š๋Š” ์ƒํ™ฉ.
    • degradation : ๋ง ๊ทธ๋Œ€๋กœ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” ํ˜„์ƒ.
  • ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ๋Š” ์˜์™ธ๋กœ ๊ณผ์ ํ•ฉ์œผ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹˜.
  • ์ธต์„ ๊นŠ๊ฒŒ ์Œ“์„์ˆ˜๋ก training error๊ฐ€ ์ ์  ๋†’์•„์ง.
    VGGNet Configuration

    <๊ทธ๋ฆผ1> ์ธต์ด ๊นŠ์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ์˜คํžˆ๋ ค ๋” ๋†’์€ training error๋ฅผ ๋ณด์ด๊ณ  ์žˆ์Œ (๋…ผ๋ฌธ๋ฐœ์ทŒ)


  • ์›๋ž˜ ์ด๋ก ์ ์œผ๋กœ, ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋Š” ์–•์€ ๋„คํŠธ์›Œํฌ๋ณด๋‹ค ๋” ๋‚˜์œ ์„ฑ๋Šฅ์„ ๊ฐ€์งˆ ์ด์œ ๊ฐ€ ์—†์Œ. ์™œ๋ƒํ•˜๋ฉด ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋Š” ์–•์€ ๋„คํŠธ์›Œํฌ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋ณต์‚ฌํ•˜๊ณ , ์ถ”๊ฐ€๋œ ์ธต์„ ํ•ญ๋“ฑ ๋งคํ•‘์œผ๋กœ ์„ค์ •ํ•˜๋ฉด ๋™์ผํ•œ ์„ฑ๋Šฅ์„ ๊ฐ€์ ธ์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž„.
  • ํ•˜์ง€๋งŒ, ์‹ค์ œ ์‹คํ—˜์—์„œ๋Š” ๊ธฐ์กด์˜ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•(SGD ๋“ฑ)์ด ์ด๋Ÿฌํ•œ ์ด์ƒ์ ์ธ ํ•ด๋ฅผ ์ฐพ์ง€ ๋ชปํ•˜๊ณ , ๊นŠ์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ํ•™์Šต ์˜ค๋ฅ˜๊ฐ€ ๋” ๋†’์•„์ง€๋Š” degradation ์ด ๋ฐœ์ƒํ•จ.

    ๋‹จ์ˆœํžˆ ์ธต์„ ๋” ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ํ•ญ์ƒ ์ตœ์ ์˜ ๋ฐฉ๋ฒ•์ด ์•„๋‹ˆ๋ฉฐ, ํšจ๊ณผ์ ์ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ์ƒˆ๋กœ์šด ๊ตฌ์กฐ๊ฐ€ ํ•„์š”ํ•จ.
    โ†’ !!ResNet์˜ ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ!!



1-2 Solving process ; Deep Residual Learning framework

์ผ๋ฐ˜์ ์ธ ์‹ ๊ฒฝ๋ง : ๊นŠ์€ ์ธต์ด ์›ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์ง์ ‘ ํ•™์Šตํ•˜๋„๋ก ํ•จ.

  • ๊ธฐ๋ณธ CNN ํ˜น์€ MLP์—์„œ๋Š” ์‹ ๊ฒฝ๋ง์ด ์ž…๋ ฅ xx๋กœ๋ถ€ํ„ฐ ์ง์ ‘ yy๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํ•จ์ˆ˜ H(x)H(x)๋ฅผ ํ•™์Šตํ•จ.
  • ๋ฌธ์ œ๋Š” ์ธต์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก ์›ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์ง์ ‘ ํ•™์Šตํ•˜๋ ค๊ณ  ํ•˜๋ฉด ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค๊ณผ ์ตœ์ ํ™” ๋‚œ์ด๋„ ์ฆ๊ฐ€ ๋“ฑ์˜ ์ด์œ ๋กœ ํ•™์Šต์ด ๋น„ํšจ์œจ์ ์ž„.

ResNet์—์„œ๋Š” ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ๊ฐ„์˜ ์ฐจ์ด์ธ ์ž”์ฐจ๋ฅผ ํ•™์Šตํ•˜๋„๋ก ํ•จ.

  • H(x)H(x) : ์›ํ•˜๋Š” ํ•จ์ˆ˜ (์ถœ๋ ฅ๋˜๋Š” ์˜ˆ์ธก๊ฐ’)
  • F(x)=H(x)โˆ’xF(x) = H(x) - x : ์ถœ๋ ฅ๊ฐ’ โˆ’- ์˜ˆ์ธก๊ฐ’
    โ†’ H(x)=F(x)+xH(x) = F(x) + x

์ž”์ฐจ ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฒƒ์ด ์›ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์ˆ˜์›”ํ•จ. ๊ทน๋‹จ์ ์ธ ์˜ˆ์‹œ๋ฅผ ๋“ค์ž๋ฉด,

  • H(x)=xH(x) = x, ์ฆ‰ H(x)=ํ•ญ๋“ฑํ•จ์ˆ˜H(x) = ํ•ญ๋“ฑํ•จ์ˆ˜
  • F(x)=0F(x) = 0

๊ฒ‰์œผ๋กœ ๋ดค์„ ๋•Œ๋Š” ๋งค์šฐ ์‰ฌ์šด ์ˆ˜์‹์ด๊ธฐ์— ์™œ ๊ตณ์ด ์ž”์ฐจ๋ฅผ ํ•™์Šตํ•˜๋‚˜ ์‹ถ์€ ์ƒ๊ฐ์ด ๋“ค ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋Š” ์ด๋ ‡๊ฒŒ ๋‹จ์ˆœํ•œ ํ•ญ๋“ฑ ๋งคํ•‘๋„ ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์›€.
๋”ฐ๋ผ์„œ ํ•ญ๋“ฑํ•จ์ˆ˜์ธ H(x)H(x)๋ฅผ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ xx๋ฅผ ๊ทธ๋Œ€๋กœ ์ถœ๋ ฅํ•  ์ˆ˜ ์žˆ๋„๋ก, ์ฆ‰ ์ถœ๋ ฅ๊ณผ ์ž…๋ ฅ์˜ ์ž”์ฐจ๊ฐ€ 00์ด ๋˜๋„๋ก F(x)=0F(x) = 0์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ํ›จ์”ฌ ์‰ฌ์šด ๋ฐฉ๋ฒ•์ž„.


| F(x)+xF(x)+x ๊ตฌํ˜„ ๋ฐฉ๋ฒ• |

  • F(x)F(x)๋Š” ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ์ž”์ฐจ๋กœ ๊ตฌํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ํฌ์ธํŠธ๋Š” xx๋ฅผ ์–ด๋–ป๊ฒŒ ๊ทธ๋Œ€๋กœ ์ „๋‹ฌํ•˜๋Š”๊ฐ€์ž„.

  • "์ˆ์ปท ์—ฐ๊ฒฐ(shortcut connections)"๋ฅผ ๊ฐ–๊ณ  ์žˆ๋Š” ํ”ผ๋“œํฌ์›ŒํŠธ ์‹ ๊ฒฝ๋ง์„ ํ†ตํ•ด ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Œ.
    (โ€ป์ˆ์ปท ์—ฐ๊ฒฐ์ด๋ž€ ํ•˜๋‚˜ ์ด์ƒ์˜ ์ธต์„ ํ†ต๊ณผ(skip)ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•จ.)

  • ํ•ด๋‹น ๋…ผ๋ฌธ์—์„œ๋Š” xx๋ฅผ ๊ทธ๋Œ€๋กœ ์ „๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š” ํ•ญ๋“ฑํ•จ์ˆ˜์ž„.

  • ํ•ญ๋“ฑ ์ˆ์ปท ์—ฐ๊ฒฐ์€ ์ถ”๊ฐ€์ ์ธ ๊ฐ€์ค‘์น˜๋‚˜ ๋ณต์žกํ•œ ์—ฐ์‚ฐ์„ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š์Œ.

  • ํ•ด๋‹น ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•ด๋„ ์—ฌ์ „ํžˆ SGD์™€ ์—ญ์ „ํŒŒ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋“ฑ ๊ธฐ์กด์˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ์‰ฝ๊ฒŒ ๊ตฌํ˜„ ๊ฐ€๋Šฅํ•จ.

    VGGNet Configuration

    <๊ทธ๋ฆผ2> ์‹ ๊ฒฝ๋ง์€ ์ž”์ฐจ๋ฅผ ํ•™์Šตํ•˜๋ฉฐ, ํ•ญ๋“ฑ ์ˆ์ปท ์—ฐ๊ฒฐ์„ ํ†ตํ•ด ์ž…๋ ฅ๊ฐ’์„ ์ถœ๋ ฅ์— ๊ทธ๋Œ€๋กœ ์ „๋‹ฌ (๋…ผ๋ฌธ๋ฐœ์ทŒ)



1.3 Evaluation - ImageNet, CIFAR-10, COCO

1. ImageNet

  • ๋‹จ์ˆœํžˆ ๊นŠ๊ฒŒ ์Œ“๊ธฐ๋งŒ ํ•œ ์‹ ๊ฒฝ๋ง๋ณด๋‹ค ์ž”์ฐจ ํ•™์Šต ๊ตฌ์กฐ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๊นŠ๊ฒŒ ์Œ“๋Š” ๊ฒƒ์ด ์ตœ์ ํ™”ํ•˜๊ธฐ์— ํ›จ์”ฌ ์ˆ˜์›”ํ•˜๊ณ  ์„ฑ๋Šฅ๋„ ์ข‹์Œ.
  • ์ž”์ฐจ๋ฅผ ํ•™์Šตํ•˜๋Š” ์‹ ๊ฒฝ๋ง์€ ์ธต์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก ์ •ํ™•๋„๊ฐ€ ๋Š˜์–ด๋‚จ. (์ •ํ™•๋„ ํฌํ™” ๋ฐ ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ ํ•ด๊ฒฐ)
  • 152-layer residual net์œผ๋กœ top-5 error์—์„œ 3.57%๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ILSVRC 2015์—์„œ 1์œ„๋ฅผ ๋‹ฌ์„ฑํ•จ.

2. CIFAR-10 set

  • 100์ธต ์ด์ƒ์„ ์‹ ๊ฒฝ๋ง์„ ์„ฑ๊ณต์ ์œผ๋กœ ํ•™์Šตํ–ˆ์Œ.
  • 1000์ธต ์ด์ƒ์˜ ๋ชจ๋ธ๋„ ์‹คํ—˜ํ•จ.

3. COCO

  • ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ COCO 2015์—์„œ 1์œ„๋ฅผ ๋‹ฌ์„ฑํ•จ.


2.1 Residual Representations

| ์ด๋ฏธ์ง€ ์ธ์‹ |

  1. VLAD : ์ž”์ฐจ ๋ฒกํ„ฐ ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ง• ํ‘œํ˜„
  • ์ด๋ฏธ์ง€์˜ ๋‹ค์–‘ํ•œ ์ง€์—ญ์—์„œ ์ถ”์ถœํ•œ ํŠน์ง•์ ์„ ๋ฒกํ„ฐํ™”ํ•œ ๊ฒƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ VLAD ํ‘œํ˜„ ์ƒ์„ฑ
  • ํŠน์ง•์ ๋“ค์„ K๊ฐœ์˜ ํด๋Ÿฌ์Šคํ„ฐ๋กœ ๋ถ„๋ฅ˜ํ•˜์—ฌ ๊ฐ ํŠน์ง•์ ์ด ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ํด๋Ÿฌ์Šคํ„ฐ(์‹œ๊ฐ์  ๋‹จ์–ด)์— ํ• ๋‹น๋จ. ์ด๋•Œ, ๊ฐ ํŠน์ง•์ ์ด ์†ํ•œ ํด๋Ÿฌ์Šคํ„ฐ ์ค‘์‹ฌ๊ณผ์˜ ์ฐจ์ด๋ฅผ ๋ฒกํ„ฐ๋กœ ์ €์žฅํ•˜์—ฌ "ํŠน์ง•์ ์ด ํด๋Ÿฌ์Šคํ„ฐ์˜ ์ค‘์‹ฌ์—์„œ ์–ผ๋งˆ๋‚˜ ๋ฒ—์–ด๋‚˜ ์žˆ๋Š”์ง€"๋ฅผ ๋ฐ˜์˜ํ•จ.
  1. Fisher Vector : VLAD์˜ ํ™•๋ฅ ์  ํ™•์žฅ ๋ฒ„์ „
  • K-means๊ฐ€ ์•„๋‹Œ GMM์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ„์‚ฐ๋จ.
  • GMM์˜ ์›๋ฆฌ๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ํŠน์ง• ๋ฒกํ„ฐ๋“ค์ด ๊ฐ ํด๋Ÿฌ์Šคํ„ฐ์— ํ• ๋‹น๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ํด๋Ÿฌ์Šคํ„ฐ ๋‚ด์— ํ™•๋ฅ ์ ์œผ๋กœ ๋ถ„ํฌํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•จ.
  • "๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ํด๋Ÿฌ์Šคํ„ฐ ์ค‘์‹ฌ๊ณผ์˜ ์ฐจ์ด"๋งŒ ๊ธฐ๋กํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ์ด์šฉํ•˜์—ฌ ํŠน์ง• ๋ฒกํ„ฐ์˜ ๋ณ€ํ™” ์–‘์ƒ์„ ํ‘œํ˜„ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ‰๊ท ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ถ„์‚ฐ ์ •๋ณด๊นŒ์ง€ ํฌํ•จํ•˜์—ฌ ๋”์šฑ ํ’๋ถ€ํ•œ ํŠน์ง•์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ.
  • ๋น„์„ ํ˜•์ ์ด๋ฉฐ ๋”์šฑ ์ •๊ตํ•œ ํŠน์ง• ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•ด์ง.
  • ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰ ๋ฐ ๋ถ„๋ฅ˜์—์„œ ๋งค์šฐ ํšจ๊ณผ์ ์ž„

| ํŽธ๋ฏธ๋ถ„๋ฐฉ์ •์‹(PDE)๋ฅผ ํ’€๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ• |

  1. ๋‹ค์ค‘ ๊ฒฉ์ž ๋ฐฉ๋ฒ• (Multigrid Method)
  • ์ด๋ฏธ์ง€๋ฅผ ์ž”์ฐจ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ถ„ํ• ํ•˜์—ฌ ์ €์ฐจ์›(๋‚ฎ์€ ํ•ด์ƒ๋„)์—์„œ ํ•ด๋ฅผ ๊ตฌํ•œ ๋’ค, ํ•ด์ƒ๋„๋ฅผ ์ ์ง„์ ์œผ๋กœ ๋ณด์ •ํ•จ์œผ๋กœ ์ตœ์ ํ™” ๊ณผ์ •์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•จ.
  • ResNet์ด ์ž”์ฐจ๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•œ ์–‘์ƒ
  1. ๊ณ„์ธต์  ๊ธฐ์ € ์ „์ฒ˜๋ฆฌ (hierarchical Basis Preconditioning)
  • ๋‹ค์ค‘ ๊ฒฉ์ž ๋ฐฉ๋ฒ•์˜ ๋Œ€์•ˆ์œผ๋กœ, ๋‹ค์ค‘ ์Šค์ผ€์ผ์—์„œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ๋•Œ, ๊ฐ ์Šค์ผ€์ผ ๊ฐ„์˜ ์ž”์ฐจ ๋ฒกํ„ฐ๋ฅผ ํ™œ์šฉํ•จ.

โ†’ ์ด๋ ‡๋“ฏ ์ž”์ฐจ๋ฅผ ์ด์šฉํ•˜๋ฉด ๋ถˆํ•„์š”ํ•œ ๊ณ„์‚ฐ์„ ์ค„์ด๊ณ  ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ๋” ์‰ฝ๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ.


2.2 Shortcut Connections

1. MLP(๋‹ค์ธต ํผ์…‰ํŠธ๋ก )์—์„œ "์ž…๋ ฅ โ†’ ์ถœ๋ ฅ"์„ ์ง์ ‘ ์—ฐ๊ฒฐํ•˜๋Š” ์„ ํ˜• ๋ ˆ์ด์–ด ์ถ”๊ฐ€์— ๋Œ€ํ•œ ์—ฐ๊ตฌ

2. ๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ(auxiliary classifier)

  • ๋ช‡๋ช‡ ์ค‘๊ฐ„ ๊ณ„์ธต์€ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฐ ํญ๋ฐœ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ์— ์ง์ ‘ ์—ฐ๊ฒฐ๋˜๊ธฐ๋„ ํ–ˆ์Œ.
  • GoogleNet์—์„œ ์‚ฌ์šฉ๋จ.

3. Inception ๋„คํŠธ์›Œํฌ

  • ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด, ์ˆ์ปท ์—ฐ๊ฒฐ์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ๊ฒฝ๋กœ๋ฅผ ์‚ฌ์šฉ
  • GoogleNet์˜ Inception ๋ชจ๋“ˆ์—์„œ๋Š” ์–•์€ ๊ฒฝ๋กœ์™€ ๊นŠ์€ ๊ฒฝ๋กœ๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ง•์„ ์ถ”์ถœ

4. highway networks (์ˆ์ปท ์—ฐ๊ฒฐ + ๊ฒŒ์ดํŠธ ๊ธฐ๋Šฅ)

  • gate๋Š” ๋ฐ์ดํ„ฐ ์˜์กด์ ์ด๊ณ  ๊ฐ€์ค‘์น˜๋ฅผ ๋‘๊ณ  ์žˆ์Œ. (ResNet๊ณผ ๋‹ค๋ฅด๊ฒŒ)

    1. gate๊ฐ€ ๋‹ซํ˜€์žˆ๋Š” ๊ฒฝ์šฐ (0์— ๋‹ค๊ฐ€๊ฐˆ ๊ฒฝ์šฐ)
      • ์ž”์ฐจ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์ง€ ์•Š์Œ.
      • ์›ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์ง์ ‘ ํ•™์Šตํ•จ.
    1. gate๊ฐ€ ์—ด๋ ค์žˆ๋Š” ๊ฒฝ์šฐ (1์— ๋‹ค๊ฐ€๊ฐˆ ๊ฒฝ์šฐ)
      • ํ•ญ์ƒ ์ž”์ฐจํ•™์Šต์„ ์ง„ํ–‰ํ•จ.
      • ํ•ญ๋“ฑ ์ˆ์ปท ์—ฐ๊ฒฐ์ด ํ•ญ์ƒ ์—ด๋ ค์žˆ์œผ๋ฏ€๋กœ ๋ชจ๋“  ์ •๋ณด์™€ ์ถ”๊ฐ€์ ์œผ๋กœ ํ•™์Šต๋œ ์ž”์ฐจ๊ฐ€ ์ „๋‹ฌ๋จ.


3 Deep Residual Learning

3.1 Residual Learning

  • H(x)H(x) : ์›ํ•˜๋Š” ํ•จ์ˆ˜ (์ถœ๋ ฅ๋˜๋Š” ์˜ˆ์ธก๊ฐ’)
  • F(x)=H(x)โˆ’xF(x) = H(x) - x : ์ถœ๋ ฅ๊ฐ’ โˆ’- ์˜ˆ์ธก๊ฐ’
    โ†’ H(x)=F(x)+xH(x) = F(x) + x
  • ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋น„์„ ํ˜• ์ธต์ด ๋ณต์žกํ•œ ํ•จ์ˆ˜๋ฅผ ์ ๊ทผ์ ์œผ๋กœ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์€ ์ž”์ฐจ ํ•จ์ˆ˜ ์—ญ์‹œ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•จ.
  • ๋”ฐ๋ผ์„œ ํ•ด๋‹น ๋…ผ๋ฌธ์—์„œ๋Š” ํ•™์Šต์˜ ํŽธ์ด๋ฅผ ์œ„ํ•ด ๋„คํŠธ์›Œํฌ๊ฐ€ F(x)=H(x)โˆ’xF(x) = H(x) - x๋ฅผ ์ถ”์ •ํ•˜๋„๋ก ํ•จ.
  • ์‹ค์ œ์—์„œ๋Š” Introduction ์—์„œ ์ œ์‹œํ•œ ์˜ˆ์‹œ์™€ ๊ฐ™์ด H(x)H(x)๊ฐ€ ํ•ญ๋“ฑํ•จ์ˆ˜์ผ ๊ฐ€๋Šฅ์„ฑ์€ ๋‚ฎ์ง€๋งŒ, ๊ทธ์™€ ๋น„์Šทํ•œ ํ•จ์ˆ˜๋ผ๋ฉด F(x)F(x)๋ฅผ ํ†ตํ•ด ์•„์ฃผ ์ž‘์€ ๋ณ€ํ™”๋งŒ ํ•™์Šตํ•˜๋ฉด ๋˜๋‹ˆ๊นŒ ์—ฌ์ „ํžˆ ํšจ๊ณผ์ ์ž„.
  • ์‹คํ—˜ ๊ฒฐ๊ณผ, ํ•™์Šต๋œ ์ž”์ฐจ ํ•จ์ˆ˜F(x)F(x)์˜ ์ถœ๋ ฅ๊ฐ’์ด ์ž‘์€ ๊ฒƒ์œผ๋กœ ๋ณด์•„ H(x)=xH(x) = x์— ๊ฐ€๊นŒ์› ์Œ์„ ์˜๋ฏธํ•จ. ์ด๋Š” ํ•ญ๋“ฑ๋งคํ•‘์ด ์ข‹์€ ์ดˆ๊ธฐ๊ฐ’ ์—ญํ• ์„ ํ–ˆ๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•จ.

3.2 Identity Mapping by Shortcuts

y=F(x,Wi)+xy = F(x, {W_i}) + x โ€ƒ - (1)

  • xx : ์ž…๋ ฅ ๋ฒกํ„ฐ
  • yy : ์ถœ๋ ฅ ๋ฒกํ„ฐ
  • F(x,Wi)F(x, {W_i}) : ์ž”์ฐจ ํ•จ์ˆ˜
  • ๊ฐ€์ค‘์น˜ ํ˜น์€ ๋ณต์žกํ•œ ์—ฐ์‚ฐ์ด ์—†๋‹ค๋Š” ๊ฒƒ์€ ์‹ค์ œ ์ ์šฉ ์‹œ, ํ”Œ๋Ÿฌ์Šค๊ฐ€ ๋˜๋Š” ์ข‹์€ ์š”์†Œ์ธ ๋™์‹œ์— ๊ธฐ์กด์˜ plain ๋„คํŠธ์›Œํฌ์™€ ๊ฐ™์€ ์กฐ๊ฑด์—์„œ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•  ๋•Œ๋„ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ.

ํ–‰๋ ฌ ์—ฐ์‚ฐ์„ ์œ„ํ•ด FF์™€ xx์˜ ์ฐจ์›์€ ๋ฐ˜๋“œ์‹œ ๋™์ผํ•ด์•ผ ํ•จ! ์ฆ‰, ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ์ฑ„๋„ ๊ฐœ์ˆ˜๊ฐ€ ๊ฐ™์•„์•ผ ํ•จ. ๋งŒ์•ฝ ์ฑ„๋„ ๊ฐœ์ˆ˜ ์ฆ๊ฐ€ ๋“ฑ์˜ ์ด์œ ๋กœ ๋‘˜์˜ ์ฐจ์›์ด ๋‹ฌ๋ผ์ง„๋‹ค๋ฉด ๋‹ค์Œ (2)์‹์„ ํ†ตํ•ด ์กฐ์ •ํ•ด์•ผํ•จ.

y=F(x,Wi)+Wsxy = F(x, {W_i}) + W_s x โ€ƒ - (2)

  • WsW_s๋Š” Conv 1x1 ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์„ ํ˜• ๋ณ€ํ™˜ ํ–‰๋ ฌ๋กœ, ์ฑ„๋„ ์ˆ˜๋ฅผ ์กฐ์ •ํ•ด์ฃผ๋Š” ์—ญํ• ์„ ํ•จ.
  • ํ•ด๋‹น ์‹(2)๋Š” ํ–‰๋ ฌ์˜ ์ฐจ์›์ด ๋‹ค๋ฅธ ๊ฒฝ์šฐ์—๋งŒ ์‚ฌ์šฉํ•จ. ์ด์™ธ์˜ ๊ฒฝ์šฐ์—๋Š” ์•ž์„œ ์ œ์‹œํ•œ ์‹(1)์„ ํ™œ์šฉํ•จ.

์ž”์ฐจ ํ•จ์ˆ˜ FF์˜ ํ˜•ํƒœ๋Š” ์œ ์—ฐํ•˜๊ธฐ์— 2๊ฐœ ํ˜น์€ ๊ทธ ์ด์ƒ์˜ ์ธต์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ. ๋‹ค๋งŒ, 1๊ฐœ์˜ ์ธต์œผ๋กœ๋งŒ ์ด๋ฃจ์–ด์ ธ ์žˆ๋‹ค๋ฉด, ์‹(1)์€ y=W1x+xy = W_1x + x ์™€ ๊ฐ™์€ ์„ ํ˜•์‹์— ๊ฐ€๊นŒ์›Œ์ง€๊ณ , ์ด๋Š” ์–ด๋– ํ•œ ์žฅ์ ๋„ ์ง€๋‹ˆ์ง€ ์•Š๊ธฐ์— ์ถ”์ฒœํ•˜์ง€ ์•Š์Œ.


| ์˜ˆ์‹œ |

<๊ทธ๋ฆผ2>์—์„œ์ฒ˜๋Ÿผ 2๊ฐœ์˜ ์ธต์ด ์žˆ๋Š” ๊ฒฝ์šฐ, ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Œ.

F=W2ฯƒ(W1x)F=W_2\sigma(W_1x)

  • ฯƒ\sigma๋Š” ReLUํ•จ์ˆ˜๋ฅผ ์˜๋ฏธํ•จ.
  • ํŽธํ–ฅ์€ ์‹ ๋‹จ์ˆœํ™”๋ฅผ ์œ„ํ•ด ์ƒ๋žต๋จ.
VGGNet Configuration

<๊ทธ๋ฆผ2> ์‹ ๊ฒฝ๋ง์€ ์ž”์ฐจ๋ฅผ ํ•™์Šตํ•˜๋ฉฐ, ํ•ญ๋“ฑ ์ˆ์ปท ์—ฐ๊ฒฐ์„ ํ†ตํ•ด ์ž…๋ ฅ๊ฐ’์„ ์ถœ๋ ฅ์— ๊ทธ๋Œ€๋กœ ์ „๋‹ฌ (๋…ผ๋ฌธ๋ฐœ์ทŒ)




3.3 Network Architectures

VGGNet Configuration

<๊ทธ๋ฆผ3> ์™ผ์ชฝ๋ถ€ํ„ฐ ์ˆœ์„œ๋Œ€๋กœ VGGnet, plain network, residual network (๋…ผ๋ฌธ๋ฐœ์ทŒ)



1. Plain Network (<๊ทธ๋ฆผ3>์—์„œ ๊ฐ€์šด๋ฐ ๋ชจ๋ธ)

  • ์ฃผ๋กœ VGGnet์œผ๋กœ๋ถ€ํ„ฐ ์˜๊ฐ์„ ๋ฐ›์•„ ์„ค๊ณ„๋จ.
  • ๋Œ€๋ถ€๋ถ„ 3x3 ํ•„ํ„ฐ๋ฅผ ํ™œ์šฉํ•จ.

    ๋‹ค์Œ 2๊ฐœ์˜ ๊ทœ์น™์„ ๋”ฐ๋ฆ„.

    1. ๊ฐ™์€ ํฌ๊ธฐ์˜ ์ถœ๋ ฅ๋งต์„ ๋„์ถœํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋Œ€๋ถ€๋ถ„์˜ ์ธต์˜ ํ•„ํ„ฐ ๊ฐœ์ˆ˜๋Š” ๋™์ผํ•จ.
    2. ๋งŒ์•ฝ ์ฑ„๋„ ๊ฐœ์ˆ˜๋ฅผ 2๋ฐฐ๋กœ ๋Š˜๋ ค๊ธฐ ์œ„ํ•ด ์ถœ๋ ฅ๋งต์˜ ํฌ๊ธฐ๋ฅผ ๋ฐ˜์œผ๋กœ ์ค„์ผ ๋•Œ๋Š”, ํ•„ํ„ฐ์˜ ๊ฐœ์ˆ˜๋ฅผ 2๋ฐฐ๋กœ ๋Š˜๋ฆผ. ์ด๋•Œ pooling์ด ์•„๋‹ˆ๋ผ conv layer์—์„œ stride=2๋กœ ์„ค์ •ํ•จ์œผ๋กœ์จ ์ถœ๋ ฅ๋งต์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ž„
  • ๋งˆ์ง€๋ง‰ ๋ถ€๋ถ„์—์„œ global average pooling์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถœ๋ ฅ๋œ ํŠน์ง• ๋งต์„ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•จ.
    ( โ€ป๋งต์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๋Š” ๋™์‹œ์— ์ฑ„๋„ ๊ฐœ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด์„œ ๋ฒกํ„ฐ๋กœ ๋„๋‹ฌํ•˜๋Š” ๊ณผ์ •์€ VGGnet ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์˜ <๊ทธ๋ฆผ5>๋ฅผ ์ฐธ๊ณ  )
  • ์ตœ์ข…์ ์œผ๋กœ softmax๋ฅผ ์žฅ์ฐฉํ•œ FC layer(1x1x1000)์— ์ „๋‹ฌํ•จ์œผ๋กœ์จ ImageNet 1000๊ฐœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•จ.

2. Residual Network

  • plain network์— ์ˆ์ปท ์—ฐ๊ฒฐ ์ถ”๊ฐ€ํ•จ.
  • ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ์•ž์„œ ์ •์˜ํ•œ ์‹(1)์„ ์ ์šฉํ•จ.
  • ์ค‘๊ฐ„์ค‘๊ฐ„ ์ฑ„๋„์˜ ๊ฐœ์ˆ˜๊ฐ€ 2๋ฐฐ๊ฐ€ ๋˜๋ฉด์„œ /2 ํ‘œ์‹œ๋œ ๊ตฌ๊ฐ„์—๋Š” ์ ์šฉํ•  ๋ฐฉ๋ฒ•์Œ ๋‹ค์Œ 2๊ฐ€์ง€์ž„.
    1. ๊ทธ๋Œ€๋กœ ์‹(1)์„ ์ ์šฉํ•˜๊ณ  ํ•ด๋‹น ๊ตฌ๊ฐ„์˜ ์ž…๋ ฅ๋งต์˜ ์ฑ„๋„์— zero padding์„ ์‚ฌ์šฉํ•จ. (xx๋Š” ์ด์ „ ์ธต์—์„œ ๋” ์ž‘์€ ์ฑ„๋„ ๊ฐœ์ˆ˜๋ฅผ ๊ทธ๋Œ€๋กœ ๊ฐ–๊ณ  ์˜ค๊ธฐ ๋•Œ๋ฌธ์— FF๊ฐ€ ์ด์™€ ์ฐจ์›์„ ๋งž์ถ”๊ธฐ ์œ„ํ•ด xx์—์„œ ๋ถ€์กฑํ•œ ์ฑ„๋„ ๋ถ€๋ถ„์„ 0์œผ๋กœ ์ฑ„์›Œ์„œ ์ฑ„๋„์˜ ์ˆ˜๋ฅผ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค๋Š” ์˜๋ฏธ์˜ zero padding์ž„.)
    2. ์‹(2)๋ฅผ ์ ์šฉํ•จ. (ํ•ญ๋“ฑ ์ˆ์ปท ์—ฐ๊ฒฐ ๋ถ€๋ถ„์— ์„ ํ˜• ๋ณ€ํ™˜ํ•œ ์‹)

3.4 Implementation

  • S๋ฅผ ์„ค์ •ํ•  ๋•Œ multi-scale ์‚ฌ์šฉ โ†’ [256, 480] ์—์„œ S๊ฐ’ ๋žœ๋ค์œผ๋กœ ์ •ํ•จ.
  • 224x224 ํฌ๊ธฐ๋งŒํผ crop ์ง„ํ–‰ํ•จ. ๋”๋ถˆ์–ด ์ขŒ์šฐ๋ฐ˜์ „์œผ๋กœ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•ํ•จ.
  • ๊ฐ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ ์ดํ›„ ํ™œ์„ฑํ™” ํ•จ์ˆ˜์— ํ†ต๊ณผ์‹œํ‚ค๊ธฐ ์ „, ๋ฐฐ์น˜ ์ •๊ทœํ™”๋ฅผ ์ง„ํ–‰ํ•จ.
  • He ์ดˆ๊ธฐ๊ฐ’ ์‚ฌ์šฉํ•จ.
  • ํ•™์Šต๋ฅ ์€ 0.1๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์„œ ์˜ค์ฐจ๊ฐ€ ๋Š˜์–ด๋‚˜๋ฉด 10โˆ’110^{-1}๋งŒํผ ๊ณฑํ•ด์คŒ. ์ตœ์ข… ํ•™์Šต๋ฅ ์€ 60ร—10โˆ’160\times10^{-1}.
  • ๊ฐ€์ค‘์น˜ ๊ฐ์†Œ(weight decay) = 0.0001
  • ๋ชจ๋ฉ˜ํ…€ = 0.9


4 Experiments - ImageNet Classification

  • training data : 128๋งŒ ๊ฐœ
  • validation data : 5๋งŒ ๊ฐœ
  • testing data : 10๋งŒ ๊ฐœ
VGGNet Configuration

<๊ทธ๋ฆผ4> ๋ชจ๋ธ ๊ตฌ์กฐ (Plain, Residual ๋ชจ๋‘ ๋™์ผ. ์ฐจ์ด๋Š” ์ˆ์ปท ์—ฐ๊ฒฐ ์‚ฌ์šฉ ์—ฌ๋ถ€) (๋…ผ๋ฌธ๋ฐœ์ทŒ)


1. Plain Networks

VGGNet Configuration

<๊ทธ๋ฆผ5> ImageNet - Plain Net์˜ error (18์ธต vs. 34์ธต) (๋…ผ๋ฌธ๋ฐœ์ทŒ)


  • 18์ธต๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ 34์ธต ๋ชจ๋ธ์ด training, validation ๋ชจ๋‘์—์„œ ์„ฑ๋Šฅ์ด ๋” ๋‚˜๋นด์Œ.
  • Introduction์—์„œ ์‚ดํŽด๋ณธ ๋ฐ”์™€ ๊ฐ™์ด, ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฐ ํญ๋ฐœ ๋“ฑ์˜ ๋ฌธ์ œ๋Š” ์•„๋‹˜.
  • ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ๊นŠ์€ plain ๋ชจ๋ธ์€ ์ˆ˜๋ ด๋ฅ ์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋‚ฎ์•„์ง์„ ํ™•์ธํ•จ. ๋‹ค์‹œ ๋งํ•ด, parameter์— ๋ณ€ํ™”๋ฅผ ์ฃผ์–ด๋„ ์˜ค์ฐจ๊ฐ€ ํฌ๊ฒŒ ์ค„์ง€ ์•Š์•„ ์ตœ์ ํ™”๊ฐ€ ์–ด๋ ต๋‹ค๋Š” ๋œป์ž„.

2. Residual Networks

VGGNet Configuration

<๊ทธ๋ฆผ6> ImageNet - ResNet์˜ error (18์ธต vs. 34์ธต) (๋…ผ๋ฌธ๋ฐœ์ทŒ)


  • baseline์€ <๊ทธ๋ฆผ4>์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ Plain Networks์™€ ๋™์ผํ•จ. ์ˆ์ปท ์—ฐ๊ฒฐ๋งŒ ์ถ”๊ฐ€ํ•จ.
  • training, validation ๋ชจ๋‘์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ  ์žˆ์Œ.


| Conclusion |

  • multi-crop ๋ฐฉ์‹
    VGGNet Configuration

    <๊ทธ๋ฆผ7> 10-crop ๋ฐฉ์‹, ์ฆ‰ multi-crop ๋ฐฉ์‹ (VGGnet ๊ธ€ ์ฐธ๊ณ ) (๋…ผ๋ฌธ๋ฐœ์ทŒ)


  • single crop ๋ฐฉ์‹

    VGGNet Configuration

    <๊ทธ๋ฆผ8> single-model, ์ฆ‰ single-crop ๋ฐฉ์‹ (๋…ผ๋ฌธ๋ฐœ์ทŒ)


    • ์•ŒํŒŒ๋ฒณ์€ ์ˆ์ปท ์—ฐ๊ฒฐ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ• 3๊ฐ€์ง€์— ๋Œ€ํ•œ ๊ฒƒ์ž„.

      (A) : zero-padding shorcuts (์ฑ„๋„ ๊ฐœ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚  ๊ฒฝ์šฐ์—๋งŒ, ์ด์™ธ์—๋Š” ์‹(1) ์ ์šฉ)
      (B) : projection shortcuts (์ฑ„๋„ ๊ฐœ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚  ๊ฒฝ์šฐ์—๋งŒ, ์ด์™ธ์—๋Š” ์‹(1) ์ ์šฉ)
      (C) : all projection shortcuts (๋ชจ๋“  ๊ฒฝ์šฐ์— ์‹(2) ์ ์šฉ)

    • (C) > (B) > (A) ์ˆœ์œผ๋กœ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ธด ํ–ˆ์ง€๋งŒ, ๊ทธ ์ฐจ์ด๊ฐ€ ๋ฏธ๋ฌ˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์— projection shortcuts, ์ฆ‰ ์‹(2)๊ฐ€ ํ•„์ˆ˜์ ์ด์ง€ ์•Š์Œ์„ ๋ณด์—ฌ์คŒ.
    • ๋ฉ”๋ชจ๋ฆฌ ๋น„์šฉ์„ ์•„๋ผ๊ธฐ ์œ„ํ•ด (C) ๋Š” ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ.

| Deeper Bottleneck Architectures |

VGGNet Configuration

<๊ทธ๋ฆผ9> 2๊ฐœ์˜ 3x3 layers vs. 1x1 layer๋ฅผ ์ด์šฉํ•œ ๋ณ‘๋ชฉ ๊ตฌ์กฐ (๋…ผ๋ฌธ๋ฐœ์ทŒ)


  • ํ•™์Šต์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ๋ณ‘๋ชฉ ๊ตฌ์กฐ๋ฅผ ๊ณ ์•ˆํ•จ.
  • ๊ฐ ์ž”์ฐจ ํ•จ์ˆ˜๋ฅผ <๊ทธ๋ฆผ9>์™€ ๊ฐ™์ด 1x1โ†’3x3โ†’1x1 ๋กœ ๊ตฌ์„ฑํ•จ.
  • ํ•ญ๋“ฑ ์ˆ์ปท ์—ฐ๊ฒฐ์ด ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š”๋ฐ, ๋งŒ์•ฝ ํ•ญ๋“ฑ ์ˆ์ปท ์—ฐ๊ฒฐ์ด ์•„๋‹Œ projection shortcut, ์ฆ‰ ์ง์ „์˜ (C)๋ฅผ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ, ์‹œ๊ฐ„ ๋ณต์žก๋„์™€ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ 2๋ฐฐ๊ฐ€ ๋จ. ๋”ฐ๋ผ์„œ ๋ฐ˜๋“œ์‹œ ํ•ญ๋“ฑ ์ˆ์ปท ์—ฐ๊ฒฐ์„ ์‚ฌ์šฉํ•ด์•ผ ํ•จ.

๊นŠ์ด๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅธ 6๊ฐœ์˜ ResNet์„ ์•™์ƒ๋ธ”ํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ๋ƒˆ์Œ

VGGNet Configuration

<๊ทธ๋ฆผ10> ์ตœ์ข… ๊ฒฐ๊ณผ (๋…ผ๋ฌธ๋ฐœ์ทŒ)




๐Ÿค” ๋‚ด ์ƒ๊ฐ

  • ์ž”์ฐจ๋ฅผ ํ•™์Šตํ•œ๋‹ค๋Š” ๊ฐœ๋…์ด ์‹ ์„ ํ•˜๋ฉด์„œ๋„ ๊ทธ ๊ณผ์ •์ด ์ฒ˜์Œ์—๋Š” ์‰ฝ๊ฒŒ ์ดํ•ด๋˜์ง€ ์•Š์•˜์Œ.
  • ๋…ผ๋ฌธ ๊ตฌ์กฐ๊ฐ€ ํŠน์ดํ•ด์„œ ๊ฐœ์ธ์ ์œผ๋กœ ์ฝ๊ธฐ ํž˜๋“ค์—ˆ์Œ.
  • 0 Abstract์™€ 1 Introduction ๊ฒน์น˜๋Š” ๋‚ด์šฉ๋„ ๋งŽ๊ณ , introduction์—์„œ ์ƒ๊ฐ๋ณด๋‹ค ๋”ฅํ•˜๊ฒŒ ์„ค๋ช…ํ•ด์ค˜์„œ ์ฝ๋Š” ์‚ฌ๋žŒ์œผ๋กœ ํ•˜์—ฌ๊ธˆ ์˜คํžˆ๋ ค ํ—ท๊ฐˆ๋ฆฌ๊ฒŒ ๋งŒ๋“ฆ. ์นœ์ ˆํ•œ ๋…ผ๋ฌธ์€ ์•„๋‹ˆ์˜€์Œ.
  • ๊ทธ๋ฆฌ๊ณ  ๋ฌด์—‡๋ณด๋‹ค ๋ ˆํผ๋Ÿฐ์Šค๋ฅผ ์นœ์ ˆํ•˜๊ฒŒ ์•ˆ ์จ์คŒ. ๋ณธ๋ฌธ ์ž‘์„ฑํ•  ๋•Œ, ๋งˆ์ง€๋ง‰์— ์™•์ฐฝ ์ •๋ฆฌํ•ด๋‘” ๋ ˆํผ๋Ÿฐ์Šค ๋ชจ์Œ์—์„œ [40] ์ด๋Ÿฐ์‹์œผ๋กœ ๋”ฐ์˜ค๋‹ˆ๊นŒ ์–ด๋–ค ์„ ํ–‰ ๋ชจ๋ธ ๋ฐ ๋…ผ๋ฌธ์„ ๋งํ•˜๋Š” ๊ฒƒ์ธ์ง€ ํ—ท๊ฐˆ๋ ธ์Œ...
profile
every high and every low

1๊ฐœ์˜ ๋Œ“๊ธ€

comment-user-thumbnail
2025๋…„ 2์›” 17์ผ

๊ธ€์ด ์ •๋ง ์ž˜ ์ •๋ฆฌ๋˜์–ด ์žˆ๋„ค์š” !! ์ข‹์€ ๊ธ€ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค โ•ฐ(ยฐโ–ฝยฐ)โ•ฏ

๋‹ต๊ธ€ ๋‹ฌ๊ธฐ