Fitting NN (Fitting Neural Networks)

์ฐฝ์Šˆยท2025๋…„ 4์›” 5์ผ

Deep Learning

๋ชฉ๋ก ๋ณด๊ธฐ
8/16
post-thumbnail

โ‰๏ธ ๋”ฅ๋Ÿฌ๋‹, ์–ธ์ œ ์“ฐ๋Š” ๊ฒŒ ์ข‹์„๊นŒ?

๋”ฅ๋Ÿฌ๋‹์€ ์ •๋ง ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ์ง€๋งŒ, ์–ธ์ œ๋‚˜ ์ •๋‹ต์€ ์•„๋‹ˆ๋‹ค.

CNN๊ณผ RNN์˜ ์„ฑ๊ณต ์‚ฌ๋ก€

  • CNN์€ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ถ„์•ผ์—์„œ ํฐ ์„ฑ๊ณต์„ ๊ฑฐ๋’€๊ณ , ํ˜„์žฌ๋Š” ์˜๋ฃŒ ์ง„๋‹จ ๋ถ„์•ผ๋กœ๋„ ํ™•์žฅ ์ค‘
  • RNN์€ ์Œ์„ฑ ๋ชจ๋ธ๋ง, ๊ธฐ๊ณ„ ๋ฒˆ์—ญ, ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ถ„์•ผ์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋จ

ํ•˜์ง€๋งŒ ํ•ญ์ƒ ์“ธ ํ•„์š”๋Š” ์—†๋‹ค

  • ๋”ฅ๋Ÿฌ๋‹์ด ์ž˜ ์ž‘๋™ํ•˜๋Š” ํ™˜๊ฒฝ: ์‹ ํ˜ธ-๋Œ€-์žก์Œ๋น„(signal-to-noise ratio) ๊ฐ€ ๋†’์€ ๊ฒฝ์šฐ
  • ์žก์Œ์ด ๋งŽ์€ ๋ฐ์ดํ„ฐ(๋น„์ •ํ˜•์ผ ๊ฒฝ์šฐ)์—์„œ๋Š” ๋‹จ์ˆœํ•œ ๋ชจ๋ธ์ด ๋” ๋‚˜์„ ์ˆ˜ ์žˆ๋‹ค

์˜ˆ์‹œ
NYSE ๋ฐ์ดํ„ฐ: AR(5) ๋ชจ๋ธ์ด RNN๋งŒํผ ์ž˜ ์ž‘๋™ํ•จ (ํ›จ์”ฌ ๋‹จ์ˆœํ•จ)
IMDB ๋ฆฌ๋ทฐ: glmnet์œผ๋กœ ํ•™์Šตํ•œ ์„ ํ˜• ๋ชจ๋ธ์ด RNN๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์ข‹์•˜๊ณ , ํ•ด์„๋„ ์‰ฌ์›€


Fitting Neural Networks

์‹ ๊ฒฝ๋ง ํ•™์Šต์€ ๋น„์„ ํ˜•, ๋น„๋ณผ๋ก(non-convex) ๋ฌธ์ œ๋ผ ์ตœ์ ํ™”๊ฐ€ ์–ด๋ ต๋‹ค.

R(ฮธ)=12โˆ‘i=1n(yiโˆ’fฮธ(xi))2withย ฮธ={wk}k=1K,ย ฮฒR(\theta) = \frac{1}{2} \sum_{i=1}^{n} \left( y_i - f_\theta(x_i) \right)^2 \quad \text{with } \theta = \{ w_k \}_{k=1}^{K},\ \beta

Local minimum์„ ํ”ผํ•ด์„œ Global minimum์„ ์ฐพ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค. ฮธ\theta๊ฐ€ 1์ฐจ์›์ด ์•„๋‹ˆ์–ด ์ฐพ๊ธฐ ํž˜๋“  ๋‚œ์ œ๋‹ค

์‹ ๊ฒฝ๋ง ํ•™์Šต์€ ์ด๋Ÿฐ ๋ณต์žกํ•œ ์†์‹ค ์ง€ํ˜• ์œ„์—์„œ ์ตœ์ ํ™”๊ฐ€ ์ด๋ค„์ง„๋‹ค.
์™„๋ฒฝํ•œ ํ•ด๋Š” ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์ง€๋งŒ, ์ข‹์€ ์‹œ์ž‘์  + ์ข‹์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜(SGD, Adam) ์œผ๋กœ๋„ ๊ฝค ๊ดœ์ฐฎ์€ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋‹ค!


๐Ÿ“‰ Gradient Descent: ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•

์‹ ๊ฒฝ๋ง ํ•™์Šต์€ ๋ณดํ†ต ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•(Gradient Descent) ์„ ํ†ตํ•ด ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•œ๋‹ค.

โœ”๏ธ ๊ธฐ๋ณธ ์•Œ๊ณ ๋ฆฌ์ฆ˜

  1. ์ดˆ๊ธฐ๊ฐ’ ฮธ0\theta_0์„ ์ž„์˜๋กœ ์„ค์ •ํ•˜๊ณ , t=0t=0
  2. ๋ฐ˜๋ณต ์ˆ˜ํ–‰:
    • ๊ธฐ์šธ๊ธฐ ๋ฐฉํ–ฅ์œผ๋กœ ์กฐ๊ธˆ ์ด๋™ํ•˜์—ฌ ฮธ\theta ๊ฐ’์„ ์—…๋ฐ์ดํŠธ
    • R(ฮธt+1)<R(ฮธt)R(\theta_{t+1}) < R(\theta_{t}) ๊ฐ€ ๋˜๋„๋ก ์—…๋ฐ์ดํŠธ

โœ”๏ธ ์ˆ˜์‹

  • ๊ธฐ์šธ๊ธฐ(gradient) ๋ฒกํ„ฐ ๊ณ„์‚ฐ:

    โˆ‡R(ฮธt)=โˆ‚R(ฮธ)โˆ‚ฮธโˆฃฮธ=ฮธt\nabla R(\theta_t) = \left. \frac{\partial R(\theta)}{\partial \theta} \right|_{\theta = \theta_t}
  • ์—…๋ฐ์ดํŠธ ๊ทœ์น™:

    ฮธt+1=ฮธtโˆ’ฯโˆ‡R(ฮธt)\theta_{t+1} = \theta_t - \rho \nabla R(\theta_t)
    • ฯ\rho: ํ•™์Šต๋ฅ (learning rate) โ€“ ์ž‘์„์ˆ˜๋ก ์ฒœ์ฒœํžˆ, ํด์ˆ˜๋ก ๋น ๋ฅด๊ฒŒ ์›€์ง์ž„ (์˜ˆ: 0.001)

๐Ÿ–‡๏ธ ๋กœ์ปฌ vs ๊ธ€๋กœ๋ฒŒ ์ตœ์†Œ๊ฐ’

  • ์‹œ์ž‘ ์œ„์น˜์— ๋”ฐ๋ผ ๋กœ์ปฌ ์ตœ์†Œ๊ฐ’์— ๋จธ๋ฌผ ์ˆ˜ ์žˆ์Œ
  • ์•ž์„œ ๋ณธ ๊ทธ๋ž˜ํ”„์ฒ˜๋Ÿผ, ฮธ0\theta_0์˜ ์œ„์น˜๊ฐ€ ์กฐ๊ธˆ๋งŒ ๋‹ฌ๋ž๋‹ค๋ฉด ๋‹ค๋ฅธ ์ตœ์†Œ์ ์— ๋„๋‹ฌํ–ˆ์„ ๊ฒƒ
  • ๊ณ ์ฐจ์›์—์„œ๋Š” ์ด ํ˜„์ƒ์ด ๋” ๋ณต์žกํ•ด์ง (์ง๊ด€์ ์œผ๋กœ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ค์›€)

Gradient Descent๋Š” "๋‚ด๋ฆฌ๋ง‰๊ธธ์„ ๋”ฐ๋ผ ๋‚ด๋ ค๊ฐ„๋‹ค"๋Š” ์•„์ฃผ ์ง๊ด€์ ์ธ ์›๋ฆฌ๋กœ ์ž‘๋™ํ•œ๋‹ค.
์†์‹ค ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ๊ทธ ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์œผ๋กœ ์กฐ๊ธˆ์”ฉ ์ด๋™ํ•˜๋ฉฐ ์ตœ์ ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ์•„๊ฐ„๋‹ค.


๐Ÿ“ˆ Backpropagation

โœ”๏ธ ์†์‹ค ํ•จ์ˆ˜ ๊ตฌ์„ฑ

์ „์ฒด ์†์‹ค:

R(ฮธ)=โˆ‘i=1nRi(ฮธ)R(\theta) = \sum_{i=1}^{n} R_i(\theta)
  • ๊ฐ ๋ฐ์ดํ„ฐ ii์— ๋Œ€ํ•œ ์†์‹ค:
    Ri(ฮธ)=12(yiโˆ’fฮธ(xi))2R_i(\theta) = \frac{1}{2} \left( y_i - f_\theta(x_i) \right)^2
    ์—ฌ๊ธฐ์„œ fฮธ(xi)f_\theta(x_i)๋Š” ์€๋‹‰์ธต์ด ํ•˜๋‚˜์ธ FNN์˜ ์ถœ๋ ฅ:
    fฮธ(xi)=ฮฒ0+โˆ‘k=1Kฮฒkโ‹…g(zik)f_\theta(x_i) = \beta_0 + \sum_{k=1}^{K} \beta_k \cdot g(z_{ik})
    ๊ทธ๋ฆฌ๊ณ  zik=wk0+โˆ‘j=1pwkjxijz_{ik} = w_{k0} + \sum_{j=1}^{p} w_{kj} x_{ij}

๐Ÿ–‡๏ธ ์—ญ์ „ํŒŒ: ์ฒด์ธ๋ฃฐ๋กœ ๋ฏธ๋ถ„ํ•˜๊ธฐ

์ถœ๋ ฅ์ธต ๊ณ„์ˆ˜์— ๋Œ€ํ•œ ๋ฏธ๋ถ„:

โˆ‚Riโˆ‚ฮฒk=โˆ’(yiโˆ’fฮธ(xi))โ‹…g(zik)\frac{\partial R_i}{\partial \beta_k} = -\left( y_i - f_\theta(x_i) \right) \cdot g(z_{ik})

์€๋‹‰์ธต ๊ฐ€์ค‘์น˜์— ๋Œ€ํ•œ ๋ฏธ๋ถ„:

โˆ‚Riโˆ‚wkj=โˆ’(yiโˆ’fฮธ(xi))โ‹…ฮฒkโ‹…gโ€ฒ(zik)โ‹…xij\frac{\partial R_i}{\partial w_{kj}} = -\left( y_i - f_\theta(x_i) \right) \cdot \beta_k \cdot g'(z_{ik}) \cdot x_{ij}
  • Backpropagation์€ ์ฒด์ธ ๋ฃฐ์„ ํ™œ์šฉํ•ด์„œ ์ถœ๋ ฅ์ธต โ†’ ์€๋‹‰์ธต โ†’ ์ž…๋ ฅ์ธต์œผ๋กœ ๊ธฐ์šธ๊ธฐ๋ฅผ ์ „ํŒŒํ•จ
  • ๊ณ„์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ณ  ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • ๋”ฅ๋Ÿฌ๋‹์ด ๊ฐ€๋Šฅํ•ด์ง„ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜ ์ค‘ ํ•˜๋‚˜

โœ๏ธ ์ˆ˜์‹์€ ๋ณต์žกํ•ด ๋ณด์—ฌ๋„, ๊ฒฐ๊ตญ "์˜ค์ฐจ๋ฅผ ๊ฐ ์ธต์œผ๋กœ ๋‚˜๋ˆ ์„œ ์ฑ…์ž„์ง€๊ฒŒ ๋งŒ๋“ ๋‹ค"๋Š” ๊ฒŒ ํ•ต์‹ฌ!!


๐Ÿ›’ Stochastic Gradient Descent (SGD)

โœ”๏ธ ๊ธฐ์กด gradient descent์˜ ๋ฌธ์ œ์ 

  • ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ gradient ๊ณ„์‚ฐ์€ ๋А๋ฆฌ๊ณ  ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ๋‹ค
  • ํŠนํžˆ ํ•™์Šต๋ฅ (learning rate) ์ด ์ž‘์„ ๊ฒฝ์šฐ, ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋” ๋А๋ ค์ง

๐Ÿ’ก SGD์˜ ์•„์ด๋””์–ด

์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์“ฐ์ง€ ์•Š๊ณ , ๋žœ๋คํ•œ ์ž‘์€ ๋ฌถ์Œ(minibatch) ๋งŒ์œผ๋กœ๋„ gradient๋ฅผ ๊ทผ์‚ฌํ•œ๋‹ค!!

  • ์˜ˆ: MNIST ๋ฐ์ดํ„ฐ (์ „์ฒด 60,000๊ฐœ โ†’ ํ•™์Šต์šฉ 48K, ๊ฒ€์ฆ์šฉ 12K)
  • ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ํฌ๊ธฐ: 128๊ฐœ
  • 1 epoch = ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ 1ํšŒ ํ•™์Šต โ†’ 48,000128=375\frac{48{,}000}{128} = 375๊ฐœ์˜ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ์—…๋ฐ์ดํŠธ

โœ”๏ธ Early Stopping

  • ๊ฒ€์ฆ ์†์‹ค(validation loss)์ด 30 epoch ์ดํ›„ ์˜คํžˆ๋ ค ์ฆ๊ฐ€
  • โ†’ ์กฐ๊ธฐ ์ข…๋ฃŒ(Early Stopping) ๋ฅผ ํ†ตํ•ด ๊ณผ์ ํ•ฉ์„ ๋ง‰๋Š” ์ •๊ทœํ™” ๊ธฐ๋ฒ•์œผ๋กœ ํ™œ์šฉ ๊ฐ€๋Šฅ

โœ… SGD๋Š” ๋น ๋ฅด๊ณ , ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ๋„ ์ข‹๋‹ค.
์—ฌ๊ธฐ์— Early Stopping ๊ฐ™์€ ์ „๋žต๊นŒ์ง€ ๋”ํ•˜๋ฉด, ๋” ์•ˆ์ •์ ์ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.


๐Ÿ“Š Regularization

  • Dropout์€ ํ•™์Šต ์ค‘ ๋งค๋ฒˆ ์ผ๋ถ€ ๋‰ด๋Ÿฐ์„ ํ™•๋ฅ  ฯ•\phi ๋กœ ๋žœ๋คํ•˜๊ฒŒ ์ œ๊ฑฐ(drop)ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

  • ์ œ๊ฑฐ๋œ ๋‰ด๋Ÿฐ์„ ์ œ์™ธํ•˜๊ณ  ํ•™์Šตํ•˜๋ฉฐ, ๋‚จ์€ ๋‰ด๋Ÿฐ์˜ ์ถœ๋ ฅ์€ 11โˆ’ฯ•\frac{1}{1 - \phi}๋งŒํผ ์Šค์ผ€์ผ์—…ํ•˜์—ฌ ๋ณด์ •ํ•œ๋‹ค.

  • ์ด๋Ÿฐ ๋ฐฉ์‹์€ ๊ณผ์ ํ•ฉ์„ ๋ง‰๊ณ , ๋งค๋ฒˆ ๋‹ค๋ฅธ ์„œ๋ธŒ ๋„คํŠธ์›Œํฌ๋ฅผ ํ•™์Šตํ•˜๋Š” ํšจ๊ณผ๋ฅผ ๋งŒ๋“ค์–ด ์•™์ƒ๋ธ” ํ•™์Šต๊ณผ ์œ ์‚ฌํ•˜๋‹ค.

  • ์„ ํ˜• ํšŒ๊ท€์ฒ˜๋Ÿผ ๋‹จ์ˆœํ•œ ๋ชจ๋ธ์—์„œ๋Š” ๋ฆฟ์ง€ ์ •๊ทœํ™”(ridge) ์™€ ์œ ์‚ฌํ•œ ํšจ๊ณผ๋ฅผ ๊ฐ€์ง€๋ฉฐ,
    ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์ฒ˜๋Ÿผ ์ผ๋ถ€ ์ž…๋ ฅ์„ ๋žœ๋คํ•˜๊ฒŒ ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ์‹๊ณผ๋„ ๋น„์Šทํ•˜๋‹ค.


โœ… Data augmentation

๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ฆฌ๋Š” ๋™์‹œ์—, ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊นŒ์ง€ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋˜‘๋˜‘ํ•œ ์ „๋žต

  • ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(data augmentation) ์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ˜•ํ•ด ๋” ๋งŽ์€ ํ•™์Šต ์ƒ˜ํ”Œ์„ ๋งŒ๋“œ๋Š” ๊ธฐ๋ฒ•์ด๋‹ค.
  • ํŠนํžˆ CNN + SGD ์กฐํ•ฉ์—์„œ ํšจ๊ณผ๊ฐ€ ํฌ๋ฉฐ, ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜์—์„œ ์ž์ฃผ ์“ฐ์ธ๋‹ค.

์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋‚˜?

  • ๊ฐ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ณ€ํ˜•(transform) ์„ ์ ์šฉ:
    • ์˜ˆ: ํšŒ์ „, ํ™•๋Œ€/์ถ•์†Œ, ์ด๋™, ๋ฐ๊ธฐ ๋ณ€ํ™” ๋“ฑ
  • ๋ณ€ํ˜•๋œ ์ด๋ฏธ์ง€๋„ ์›๋ž˜์™€ ๊ฐ™์€ ๋ผ๋ฒจ์„ ์œ ์ง€ (์˜ˆ: ์—ฌ์ „ํžˆ "tiger")

ํšจ๊ณผ

  • ํ•˜๋‚˜์˜ ์ด๋ฏธ์ง€ ์ฃผ๋ณ€์— ์—ฌ๋Ÿฌ ๋ณ€ํ˜•๋œ ์ด๋ฏธ์ง€๋“ค์„ ๋งŒ๋“ค์–ด โ€œ์ด๋ฏธ์ง€ ๊ตฌ๋ฆ„โ€ ์„ ํ˜•์„ฑ
  • Dropout์ฒ˜๋Ÿผ ๊ณผ์ ํ•ฉ์„ ๋ง‰๊ณ , ridge ์ •๊ทœํ™”์™€ ์œ ์‚ฌํ•œ ํšจ๊ณผ๋ฅผ ์คŒ
  • ๋ชจ๋ธ์ด ํŠน์ • ์ž…๋ ฅ์— ๊ณผ๋„ํ•˜๊ฒŒ ์˜์กดํ•˜์ง€ ์•Š๊ณ , ๋” ์ผ๋ฐ˜์ ์ธ ํŒจํ„ด์„ ํ•™์Šตํ•˜๊ฒŒ ๋จ

โœ… Double Descent

๊ธฐ์กด ์ด๋ก : Bias-Variance Trade-off

  • ๋ชจ๋ธ ๋ณต์žก๋„๊ฐ€ ์ปค์ง€๋ฉด ํŽธํ–ฅ(bias) ์€ ์ค„๊ณ , ๋ถ„์‚ฐ(variance) ์€ ์ปค์ง
  • ๊ทธ๋ž˜์„œ ์ผ๋ฐ˜ํ™” ์˜ค๋ฅ˜๋Š” U์ž ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚จ โ†’ ๋„ˆ๋ฌด ๋‹จ์ˆœํ•ด๋„, ๋„ˆ๋ฌด ๋ณต์žกํ•ด๋„ ์•ˆ ์ข‹๋‹ค

๊ทธ๋Ÿฐ๋ฐโ€ฆ ์‹ ๊ฒฝ๋ง์€ ๋‹ค๋ฅด๋‹ค?

  • ์€๋‹‰ ์œ ๋‹›์„ ๋งŽ์ด ์“ฐ๊ฑฐ๋‚˜, ์ธต ์ˆ˜๋ฅผ ๋Š˜๋ ค์„œ ๋ณต์žก๋„๋ฅผ ๋†’์ด๋ฉด:
    • ํ›ˆ๋ จ ์˜ค์ฐจ๋Š” 0๊นŒ์ง€ ๊ฐ์†Œ
    • ๊ทธ๋Ÿฐ๋ฐ๋„ ํ…Œ์ŠคํŠธ ์„ฑ๋Šฅ์ด ์˜คํžˆ๋ ค ๋” ์ข‹์•„์ง€๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค!
  • ์‹ฌ์ง€์–ด ๋ชจ๋ธ์„ ๋” ํฌ๊ฒŒ ๋งŒ๋“ค์–ด๋„, ๋‹ค์‹œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋Š” ํ˜„์ƒ์ด ๋‚˜ํƒ€๋‚จ

์—๋Ÿฌ ๊ณก์„ ์ด ํ•œ ๋ฒˆ ๊บพ์˜€๋‹ค๊ฐ€ ๋‹ค์‹œ ๋‚ด๋ ค๊ฐ€๋Š” "W์ž ๋ชจ์–‘" ์„ ๋ณด์ด๋Š” ๊ฒƒ
์ฒซ ๋ฒˆ์งธ ๋””์„ผํŠธ: ์ „ํ†ต์ ์ธ bias-variance ๊ณก์„ 
๋‘ ๋ฒˆ์งธ ๋””์„ผํŠธ: ๊ณผ์ ํ•ฉ์„ ๋šซ๊ณ , ๋” ํฐ ๋ชจ๋ธ์ด ์˜คํžˆ๋ ค ๋” ์ž˜ ์ผ๋ฐ˜ํ™”ํ•˜๋Š” ์˜์—ญ

์‹ ๊ฒฝ๋ง์€ ๋ณต์žกํ•œ ๊ตฌ์กฐ์—์„œ๋„ ๊ณผ์ ํ•ฉ๋˜์ง€ ์•Š๊ณ , ์˜คํžˆ๋ ค ํ›ˆ๋ จ ์˜ค์ฐจ 0์ด ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์ข‹์„ ๋•Œ๋„ ์žˆ๋‹ค

๐Ÿ–‡๏ธ Simulation Double Descent

  • ๋ฐ์ดํ„ฐ ์ƒ์„ฑ:

    y=sinโก(x)+ฯต,xโˆผU[โˆ’5,ย 5],ฯตโˆผN(0,ย 0.32)y = \sin(x) + \epsilon, \quad x \sim \mathcal{U}[-5,\ 5], \quad \epsilon \sim \mathcal{N}(0,\ 0.3^2)
  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ: 20๊ฐœ / ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ: 10,000๊ฐœ

  • ๋ชจ๋ธ: ์ž์—ฐ ์Šคํ”Œ๋ผ์ธ(natural spline)์„ ์‚ฌ์šฉํ•œ ์„ ํ˜• ํšŒ๊ท€

    y^i=โˆ‘j=1dฮฒ^jNj(xi)\hat{y}_i = \sum_{j=1}^{d} \hat{\beta}_j N_j(x_i)
  • d=20d=20: ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ •ํ™•ํžˆ ๋งž์ถค (์ž”์ฐจ = 0), ํ•ด๋Š” ์œ ์ผ

  • d>20d>20: ์—ฌ์ „ํžˆ ์ž”์ฐจ๋Š” 0์ด์ง€๋งŒ, ํ•ด๋Š” ์—ฌ๋Ÿฌ ๊ฐœ โ†’ ๊ทธ์ค‘ โˆ‘j=1dฮฒ^j2\sum_{j=1}^{d} \hat{\beta}_j^2 ๊ฐ€ ๊ฐ€์žฅ ์ž‘์€ ํ•ด(minimum norm solution)๋ฅผ ์„ ํƒ

Double Descent Error Curve

  • dโ‰ค20dโ‰ค20: OLS ํšŒ๊ท€ ์˜์—ญ โ†’ ์ „ํ†ต์ ์ธ bias-variance trade-off ๋ฐœ์ƒ
  • d=20d=20: ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์™„๋ฒฝํžˆ ๋งž์ถค (์ž”์ฐจ 0), ํ•ด๋Š” ์œ ์ผ
  • d>20d>20: ์—ฌ์ „ํžˆ ์ž”์ฐจ 0 ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ํ•ด๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ โ†’ minimum norm solution ์„ ํƒ.
    ์ด๋•Œ, โˆ‘j=1dฮฒ^j2\sum_{j=1}^{d} \hat{\beta}_j^2 ๊ฐ’์ด ๊ฐ์†Œํ•˜๋ฉด์„œ ๋œ ์š”๋™์น˜๋Š”(wiggly) ํ•ด๊ฐ€ ์„ ํƒ๋จ

๋ณต์žก๋„๊ฐ€ ๋Š˜์–ด๋„ ํ•ด์˜ norm์ด ์ž‘์•„์ง€๋ฉด์„œ, ์˜คํžˆ๋ ค ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋‹ค์‹œ ์ข‹์•„์ง€๋Š” double descent ํ˜„์ƒ์ด ๋‚˜ํƒ€๋‚œ๋‹ค!

d=20d=20์—์„œ๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ •ํ™•ํžˆ ๋งž์ถ”๋Š” zero-residual ํ•ด๋ฅผ ์–ป๊ธฐ ๋นก๋นกํ•จ
d>20d>20์—์„œ๋Š” ํ•ด๊ฐ€ ๋งŽ์•„์ง€๋ฏ€๋กœ, ๋” ๋งค๋„๋Ÿฝ๊ณ  ๋œ ์š”๋™์น˜๋Š”(wiggly) ํ•ด ์ค‘ โˆ‘j=1dฮฒ^j2\sum_{j=1}^{d} \hat{\beta}_j^2์ด ๊ฐ€์žฅ ์ž‘์€ ํ•ด(minimum norm) ๋ฅผ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Œ

์ž์œ ๋„๊ฐ€ ๋” ๋†’์„์ˆ˜๋ก, ๋™์ผํ•˜๊ฒŒ ์ž”์ฐจ 0์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋” ๋ถ€๋“œ๋Ÿฌ์šด ํ•จ์ˆ˜๋ฅผ ์„ ํƒํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค!


โœ๏ธ Summary

๋„“์€ ์„ ํ˜• ๋ชจ๋ธ์—์„œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ ๊ณ  ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์„ ๋•Œ, ์ž‘์€ ์Šคํ… ํฌ๊ธฐ์˜ SGD๋Š” ์ž”์ฐจ 0์ด๋ฉด์„œ ์ตœ์†Œ norm์„ ๊ฐ–๋Š” ํ•ด๋กœ ์ˆ˜๋ ดํ•œ๋‹ค.

์ด๋•Œ์˜ SGD ๊ฒฝ๋กœ(stochastic gradient flow) ๋Š” ๋ฆฟ์ง€ ํšŒ๊ท€ ํ•ด์˜ ๊ฒฝ๋กœ์™€ ์œ ์‚ฌํ•œ ์„ฑ์งˆ์„ ๊ฐ€์ง„๋‹ค.

์ด์™€ ์œ ์‚ฌํ•˜๊ฒŒ, ๋”ฅํ•˜๊ณ  ๋„“์€ ์‹ ๊ฒฝ๋ง๋„ SGD๋กœ ์ž”์ฐจ 0๊นŒ์ง€ ํ•™์Šตํ–ˆ์„ ๋•Œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚œ ํ•ด๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

ํŠนํžˆ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜์ฒ˜๋Ÿผ ์‹ ํ˜ธ-๋Œ€-์žก์Œ๋น„๊ฐ€ ๋†’์€ ๋ฌธ์ œ์—์„œ๋Š” ๊ณผ์ ํ•ฉ ์œ„ํ—˜์ด ๋‚ฎ๊ณ , ์ž”์ฐจ 0์ธ ํ•ด๊ฐ€ ์‹ค์ œ๋กœ ์˜๋ฏธ ์žˆ๋Š” ์‹ ํ˜ธ๋ฅผ ์ž˜ ํฌ์ฐฉํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.


0๊ฐœ์˜ ๋Œ“๊ธ€