๐ŸŽฒ[AI] Deep Neural Network๊ฐ€ ํ•„์š”ํ•œ ์ด์œ 

manduยท2025๋…„ 5์›” 5์ผ

[AI]

๋ชฉ๋ก ๋ณด๊ธฐ
11/20

ํ•ด๋‹น ๊ธ€์€ FastCampus - '[skill-up] ์ฒ˜์Œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ์œ ์น˜์› ๊ฐ•์˜๋ฅผ ๋“ฃ๊ณ ,
์ถ”๊ฐ€ ํ•™์Šตํ•œ ๋‚ด์šฉ์„ ๋ง๋ถ™์—ฌ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.


1. Linear ๋ชจ๋ธ์˜ ํ•œ๊ณ„

  • ์„ธ์ƒ์—๋Š” ์„ ํ˜• ๊ด€๊ณ„๋กœ๋Š” ํ•ด์„ํ•  ์ˆ˜ ์—†๋Š” ๋น„์„ ํ˜• ๋ฐ์ดํ„ฐ๋“ค์ด ๋„˜์ณ๋‚จ
    e.g. ์ด๋ฏธ์ง€, ํ…์ŠคํŠธ, ์Œ์„ฑ, ...
  • ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ๋“ค์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” Linear Regression model์ด๋‚˜ Logistic Regression model๊ณผ ๊ฐ™์€ shallow model๋กœ๋Š” ๋ถ€์กฑํ•จ
  • ๋ฌผ๋ก  deep model์ด๋ผ๊ณ  ํ•ด๋„ layer๋งŒ ๋” ๊นŠ์–ด์งˆ ๋ฟ์ด์ง€ gradient descent, Loss function ๋“ฑ์˜ ๊ฐœ๋…์€ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉ๋จ
  • ๊ณ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋“ค์€ ploting๋„ ์–ด๋ ค์›€

2. Linear + Linear๋กœ๋Š” ์•ˆ ๋ ๊นŒ?

h=xโ‹…W1+b1y=hโ‹…W2+b2=(xโ‹…W1+b1)โ‹…W2+b2=xโ‹…W1โ‹…W2+b1โ‹…W2+b2h = x\cdot W_1 + b_1 \\ y = h\cdot W_2 + b_2 \\ = (x\cdot W_1 +b_1)\cdot W_2 + b_2 \\ = x\cdot W_1\cdot W_2+b_1\cdot W_2 + b_2
  • ์—ฌ์ „ํžˆ linearํ•จ

3. Adding Non-linearity

  • ๋งŒ์•ฝ layer ์‚ฌ์ด์— ๋น„์„ ํ˜• ํ™œ์„ฑ ํ•จ์ˆ˜๋ฅผ ๋„ฃ์–ด ๊นŠ๊ฒŒ ์Œ“๋Š”๋‹ค๋ฉด?
    (๊ผญ sigmoid, tanh์ผ ํ•„์š”๋Š” ์—†์Œ)
  • ํ™œ์„ฑํ•จ์ˆ˜๋งŒ ๋“ค์–ด๊ฐ€๋ฉด ๋น„์„ ํ˜• ๋ชจ๋ธ์„ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ์Œ
  • ์ด๋ฏธ ์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๋ช…๋œ ๊ฒฐ๊ณผ (๋ณดํŽธ ๊ทผ์‚ฌ ์ •๋ฆฌ, UAT)
  • DNN์€ non-convexํ•œ loss surface๋ฅผ ๊ฐ€์ง
    • non-convex: ํ‘œ๋ฉด์— ๋ด‰์šฐ๋ฆฌ(peak), ๊ณจ์งœ๊ธฐ(valley), ์•ˆ์žฅ์ (saddle point) ๋“ฑ์ด ๋งŽ์ด ์กด์žฌํ•˜๋Š” ๊ณก๋ฉด

๋ณดํŽธ ๊ทผ์‚ฌ ์ •๋ฆฌ (UAT, Universal Approximation Theorem)
"์ถฉ๋ถ„ํ•œ ์ˆ˜์˜ ๋‰ด๋Ÿฐ๊ณผ ์ ์ ˆํ•œ ๋น„์„ ํ˜• ํ™œ์„ฑํ•จ์ˆ˜๊ฐ€ ์žˆ๋‹ค๋ฉด, ํ•˜๋‚˜์˜ ์€๋‹‰์ธต๋งŒ์œผ๋กœ๋„ ์–ด๋–ค ์—ฐ์†์ ์ธ ํ•จ์ˆ˜๋“  ์›ํ•˜๋Š” ์ •ํ™•๋„๋กœ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๋‹ค."

  • ์„ ํ˜• ํ•จ์ˆ˜๋งŒ ์—ฌ๋Ÿฌ ๊ฐœ ์Œ“์œผ๋ฉด ๊ฒฐ๊ตญ ์ „์ฒด ๋ชจ๋ธ๋„ ์„ ํ˜•์ด ๋จ
  • ํ•˜์ง€๋งŒ ์ค‘๊ฐ„์— ๋น„์„ ํ˜• ํ•จ์ˆ˜ (์˜ˆ: ReLU, sigmoid)๋ฅผ ๋„ฃ์œผ๋ฉด ๋ชจ๋ธ์€ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋จ
  • ๋น„์„ ํ˜• ํ™œ์„ฑํ•จ์ˆ˜๋ฅผ ๊ฐ€์ง„ ์ถฉ๋ถ„ํžˆ ํฐ ์‹ ๊ฒฝ๋ง์€ ์–ด๋–ค ํ•จ์ˆ˜๋“  ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ˆ˜ํ•™์  ๋ณด์žฅ
  • ์ˆ˜์‹

    ์ž„์˜์˜ ์—ฐ์† ํ•จ์ˆ˜f:Rnโ†’Rf: \mathbb{R}^n \rightarrow \mathbb{R} ์™€
    ์ž„์˜์˜ ์ž‘์€ ์˜ค์ฐจ ฮต>0\varepsilon > 0 ์— ๋Œ€ํ•ด,
    ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ์˜ ํ•จ์ˆ˜f^(x\hat{f}(\mathbf{x}) ๊ฐ€ ์กด์žฌํ•œ๋‹ค๋ฉด:
    f^(x)=โˆ‘i=1Nฮฑiโ‹…ฯƒ(wiโŠคx+bi)\hat{f}(\mathbf{x}) = \sum_{i=1}^{N} \alpha_i \cdot \sigma(\mathbf{w}_i^\top \mathbf{x} + b_i)
    ์ด๋•Œ,
    โˆฅf(x)โˆ’f^(x)โˆฅ<ฮตโˆ€โ€‰xโˆˆK\| f(\mathbf{x}) - \hat{f}(\mathbf{x}) \| < \varepsilon \quad \forall \, \mathbf{x} \in K
    K๋Š” compactํ•œ ์ž…๋ ฅ ๊ณต๊ฐ„ (์ฆ‰, ์œ ๊ณ„ ํ์ง‘ํ•ฉ)์ด๋‹ค.

    xโˆˆRn\mathbf{x} \in \mathbb{R}^n : ์ž…๋ ฅ ๋ฒกํ„ฐ
    ฯƒ(โ‹…)\sigma(\cdot) : ๋น„์„ ํ˜• ํ™œ์„ฑ ํ•จ์ˆ˜ (์˜ˆ: sigmoid, tanh)
    ฮฑiโˆˆR\alpha_i \in \mathbb{R} : ์ถœ๋ ฅ ๊ฐ€์ค‘์น˜
    wiโˆˆRn\mathbf{w}_i \in \mathbb{R}^n : ์ž…๋ ฅ ๊ฐ€์ค‘์น˜
    biโˆˆRb_i \in \mathbb{R} : ๋ฐ”์ด์–ด์Šค
    NโˆˆNN \in \mathbb{N} : ์€๋‹‰ ๋‰ด๋Ÿฐ์˜ ์ˆ˜ (์ถฉ๋ถ„ํžˆ ํฌ๋ฉด ๊ฐ€๋Šฅ)
    f^(x)\hat{f}(\mathbf{x}) : ์‹ ๊ฒฝ๋ง์ด ๊ทผ์‚ฌํ•œ ํ•จ์ˆ˜

4. Network Capacity

  • ๊นŠ์ด(depth)์™€ ๋„ˆ๋น„(width)๋ฅผ ๋„“๊ฒŒ ํ• ์ˆ˜๋ก ์‹ ๊ฒฝ๋ง์˜ ํ‘œํ˜„๋ ฅ์€ ์ข‹์•„์ง„๋‹ค.
    โ†’ ๋ณต์žกํ•œ ํ˜•ํƒœ์˜ ํ•จ์ˆ˜๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ์ƒ๊น€
  • ์ผ๋‹จ ๊นŠ๊ณ  ๋„“๊ฒŒ, learing rate๋ฅผ ์ž‘๊ฒŒ ํ•˜๋ฉด ๋ญ๋ผ๋„ ๋งŒ๋“ค์–ด์ง€๊ธด ํ•จ

profile
๋งŒ๋‘๋Š” ๋ชฉ๋ง๋ผ

0๊ฐœ์˜ ๋Œ“๊ธ€