Optimization Algorithm

CAยท2023๋…„ 6์›” 28์ผ

AI

๋ชฉ๋ก ๋ณด๊ธฐ
7/8

์ถœ์ฒ˜: https://www.slideshare.net/yongho/ss-79607172

๐Ÿ“ŒOptimizer

๐Ÿ’ก ๋”ฅ๋Ÿฌ๋‹ ํ•™์Šต ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋˜๋Š” Optimizer์— ๋Œ€ํ•œ ์ข…๋ฅ˜์™€ ํŠน์ง•์„ ์•Œ์•„๋ณด์ž

Optimizer์˜ ์ข…๋ฅ˜

  • GD(๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•)
  • SGD(ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•)
  • Momentum(๋ชจ๋ฉ˜ํ…€)
  • Adagrad(Adaptive Gradient, ์•„๋‹ค๊ทธ๋ผ๋“œ)
  • RMsprop(์•Œ์— ์—์Šคํ”„๋กญ)
  • Adam(Adaptive Moment Estimation, ์•„๋‹ด)
  • โŒ AdaDelta(Adaptive Delta, ์•„๋‹ค๋ธํƒ€)
  • NAG (Nesterov Accelerated Gradient)
  • Nadam (Nesterov-accelerated Adaptive Memoment Adam)

1. GD

Neural network์˜ weight์„ ์กฐ์ ˆํ•˜๋Š” ๊ณผ์ •์—๋Š” ๋ณดํ†ต โ€˜Gradient Descentโ€™ ๋ผ๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋Š” ๋„คํŠธ์›Œํฌ์˜ parameter๋“ค์„ ฮธ๋ผ๊ณ  ํ–ˆ์„ ๋•Œ, ๋„คํŠธ์›Œํฌ์—์„œ ๋‚ด๋†“๋Š” ๊ฒฐ๊ณผ๊ฐ’๊ณผ ์‹ค์ œ ๊ฒฐ๊ณผ๊ฐ’ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ์ •์˜ํ•˜๋Š” ํ•จ์ˆ˜ Loss function J(ฮธ)์˜ ๊ฐ’์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ์šธ๊ธฐ(gradient) โˆ‡ฮธJ(ฮธ)๋ฅผ ์ด์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค

ฮธ = ฮธ โˆ’ ฮทโˆ‡ฮธJ(ฮธ)

์ด ๋•Œ ฮท๋Š” ๋ฏธ๋ฆฌ ์ •ํ•ด์ง„ ๊ฑธ์Œ์˜ ํฌ๊ธฐ โ€˜step sizeโ€™ ๋กœ์„œ, ๋ณดํ†ต 0.01~0.001 ์ •๋„์˜ ์ ๋‹นํ•œ ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
๐Ÿ”ฅ Loss Function์„ ๊ณ„์‚ฐํ•  ๋•Œ

  • Batch Gradient Descent(BGD) :์ „์ฒด ๋ฐ์ดํ„ฐ ์…‹์— ๋Œ€ํ•œ ์—๋Ÿฌ๋ฅผ ๊ตฌํ•œ ๋’ค ๊ธฐ์šธ๊ธฐ๋ฅผ ํ•œ๋ฒˆ๋งŒ ๊ณ„์‚ฐํ•˜์—ฌ ๋ชจ๋ธ์˜ parameter ๋ฅผ ์—…๋ฐ์ดํŠธ ํ•˜๋Š” ๋ฐฉ๋ฒ•
  • Stochastic Gradient Descent (SGD) : ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ธฐ์šธ๊ธฐ ๊ฐ’์„ ๊ตฌํ•ด ์—…๋ฐ์ดํŠธ๋ฅผ ์ง„ํ–‰ํ•˜๊ณ  ๊ทธ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜์—ฌ ์ด nํšŒ ์—…๋ฐ์ดํŠธ๋ฅผ ์ง„ํ–‰
  • Mini-batch Gradient Descent (MGD): ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฝ‘์€ Mini-batch์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ๊ฐ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ตฌํ•œ ๋’ค, ๊ทธ๊ฒƒ์˜ ํ‰๊ท  ๊ธฐ์šธ๊ธฐ๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ parameter ๋ฅผ ์—…๋ฐ์ดํŠธ ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ Batch ๋ณด๋‹ค ๋น ๋ฅด๊ณ  SGD ๋ณด๋‹ค ๋‚ฎ์€ ์˜ค์ฐจ์œจ์„ ๊ฐ€์ง„๋‹ค.

Gradient Descent Optimization Algorithms at Saddle Point์ถœ์ฒ˜: https://imgur.com/NKsFHJb

๋นจ๊ฐ„์ƒ‰์˜ SGD๊ฐ€ ์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์žˆ๋Š” Naive Stochastic Gradient Descent ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๊ณ , Momentum, NAG, Adagrad, AdaDelta, RMSprop ๋“ฑ์€ SGD์˜ ๋ณ€ํ˜•์ด๋‹ค.
SGD๋Š” ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ๋‚ฎ๋‹ค. ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค ๋ณด๋‹ค ์ด๋™์†๋„๊ฐ€ ํ˜„์ €ํ•˜๊ฒŒ ๋А๋ฆด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋ฐฉํ–ฅ์„ ์ œ๋Œ€๋กœ ์žก์ง€ ๋ชปํ•˜๊ณ  ์ด์ƒํ•œ ๊ณณ์—์„œ ์ˆ˜๋ ดํ•˜์—ฌ ์ด๋™ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ชจ์Šต๋„ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋‹ค.

2. SGD

ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Stochastic Gradient Descent)๋Š” ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•๊ณผ ๋‹ค๋ฅด๊ฒŒ ํ•œ๋ฒˆ ํ•™์Šตํ•  ๋•Œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋žœ๋คํ•˜๊ฒŒ ์ถ”์ถœํ•œ ์ผ๋ถ€ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ ˆํ•œ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ์†๋„๋Š” ๊ฐœ์„ ๋˜์—ˆ์ง€๋งŒ ์ตœ์  ํ•ด์˜ ์ •ํ™•๋„๋Š” ๋‚ฎ๋‹ค.
ฮฑ๋Š” Learning Rate

3. Momentum

๋ชจ๋ฉ˜ํ…€ SGD๋Š” ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์— ๊ด€์„ฑ์„ ๋”ํ•ด ์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋งค๋ฒˆ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ตฌํ•˜์ง€๋งŒ, ๊ฐ€์ค‘์น˜๋ฅผ ์ˆ˜์ •ํ•˜๊ธฐ์ „ ์ด์ „ ์ˆ˜์ • ๋ฐฉํ–ฅ(+,-)๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ๊ฐ™์€ ๋ฐฉํ–ฅ์œผ๋กœ ์ผ์ •ํ•œ ๋น„์œจ๋งŒ ์ˆ˜์ •๋˜๊ฒŒ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์ˆ˜์ •์ด ์–‘(+) ๋ฐฉํ–ฅ, ์Œ(-) ๋ฐฉํ–ฅ ์ˆœ์ฐจ์ ์œผ๋กœ ์ผ์–ด๋‚˜๋Š” ์ง€๊ทธ์žฌ๊ทธ ํ˜„์ƒ์ด ์ค„์–ด๋“ค๊ณ , ์ด์ „ ์ด๋™ ๊ฐ’์„ ๊ณ ๋ คํ•ด์—ฌ ์ผ์ • ๋น„์œจ๋งŒํผ ๋‹ค์Œ ๊ฐ’์„ ๊ฒฐ์ •ํ•˜๋ฏ€๋กœ ๊ด€์„ฑ์˜ ํšจ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค.
ฮฑ๋Š” Learning Rate, m์€ momentum ๊ณ„์ˆ˜

4. Adagrad

Adagrad๋Š” ๋ณ€์ˆ˜์˜ ์—…๋ฐ์ดํŠธ ํšŸ์ˆ˜์— ๋”ฐ๋ผ ํ•™์Šต๋ฅ (Learning rate)๋ฅผ ์กฐ์ ˆํ•˜๋Š” ์˜ต์…˜์ด ์ถ”๊ฐ€๋œ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์ด๋‹ค. ์—ฌ๊ธฐ์„œ ๋ณ€์ˆ˜๋ž€ ๊ฐ€์ค‘์น˜(W) ๋ฒกํ„ฐ์˜ ํ•˜๋‚˜์˜ ๊ฐ’(w[i])์„ ๋งํ•œ๋‹ค. ์•„๋‹ค๊ทธ๋ผ๋“œ๋Š” ๋งŽ์ด ๋ณ€ํ™”ํ•˜์ง€ ์•Š์€ ๋ณ€์ˆ˜๋“ค์€ ํ•™์Šต๋ฅ (step size)๋ฅผ ํฌ๊ฒŒํ•˜๊ณ , ๋ฐ˜๋Œ€๋กœ ๋งŽ์ด ๋ณ€ํ™”ํ•œ ๋ณ€์ˆ˜๋“ค์— ๋Œ€ํ•ด์„œ๋Š” ํ•™์Šต๋ฅ ์„ ์ ๊ฒŒํ•œ๋‹ค.
Adagrad๋Š” ๊ฐ™์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๊ฐ€ ์—ฌ๋Ÿฌ๋ฒˆ ํ•™์Šต๋˜๋Š” ํ•™์Šต๋ชจ๋ธ์— ์œ ์šฉํ•˜๊ฒŒ ์“ฐ์ด๋Š”๋ฐ ๋Œ€ํ‘œ์ ์œผ๋กœ ์–ธ์–ด์™€ ๊ด€๋ จ๋œ word2vec์ด๋‚˜ GloVe์— ์œ ์šฉํ•˜๋‹ค.์ด๋Š” ํ•™์Šต ๋‹จ์–ด์˜ ๋“ฑ์žฅ ํ™•๋ฅ ์— ๋”ฐ๋ผ ๋ณ€์ˆ˜์˜ ์‚ฌ์šฉ ๋น„์œจ์ด ํ™•์—ฐํ•˜๊ฒŒ ์ฐจ์ด๋‚˜๊ธฐ ๋•Œ๋ฌธ์— ๋งŽ์ด ๋“ฑ์žฅํ•œ ๋‹จ์–ด๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ์ ๊ฒŒ ์ˆ˜์ •ํ•˜๊ณ  ์ ๊ฒŒ ๋“ฑ์žฅํ•œ ๋‹จ์–ด๋Š” ๋งŽ์ด ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

5. RMsprop

RMSprop์€ ์•„๋‹ค๊ทธ๋ผ๋“œ์˜ G(t)์˜ ๊ฐ’์ด ๋ฌดํ•œํžˆ ์ปค์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ณ ์ž ์ œ์•ˆ๋˜์—ˆ์œผ๋ฉฐ ์ง€์ˆ˜ ์ด๋™ํ‰๊ท ์„ ์ด์šฉํ•œ ๋ฐฉ๋ฒ•์ด๋‹ค.

๐Ÿ’ก ์ง€์ˆ˜ ์ด๋™ํ‰๊ท ์ด๋ž€?

์ง€์ˆ˜ ์ด๋™ํ‰๊ท ์ด๋ž€ ๋ฐ์ดํ„ฐ์˜ ์ด๋™ํ‰๊ท ์„ ๊ตฌํ•  ๋•Œ, ์˜ค๋ž˜๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ง€์ˆ˜์ ์œผ๋กœ ๊ฐ์‡ (exponential decay) ํ•˜๋„๋ก ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ์ตœ๊ทผ ๊ฐ’์— ๊ฐ’๊ณผ ์ด์ „ ๊ฐ’์— ๊ฐ๊ฐ ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ์–ด ๊ณ„์‚ฐ์„ ํ•œ๋‹ค.

์ง€์ˆ˜ ์ด๋™ํ‰๊ท ๊ฐ’์€ x, ํ˜„์žฌ ๊ฐ’์€ p, ๊ฐ€์ค‘์น˜๋Š” โบ, ์•„๋ž˜ ์ฒจ์ž k๋Š” step ๋˜๋Š” ์‹œ๊ฐ„, N์€ ๊ฐ’์˜ ๊ฐœ์ˆ˜

RMSprop ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์ด๋ ‡๊ฒŒ ๋Œ€์ฒด๋ฅผ ํ•  ๊ฒฝ์šฐ Adagrad์ฒ˜๋Ÿผ Gt๊ฐ€ ๋ฌดํ•œ์ • ์ปค์ง€์ง€๋Š” ์•Š์œผ๋ฉด์„œ ์ตœ๊ทผ ๋ณ€ํ™”๋Ÿ‰์˜ ๋ณ€์ˆ˜๊ฐ„ ์ƒ๋Œ€์ ์ธ ํฌ๊ธฐ ์ฐจ์ด๋Š” ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.

6. Adam

Adam์€ RMSProp๊ณผ Momentum ๋ฐฉ์‹์„ ํ•ฉ์นœ ๊ฒƒ ๊ฐ™์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ์ด ๋ฐฉ์‹์—์„œ๋Š” Momentum ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์ง€๊ธˆ๊นŒ์ง€ ๊ณ„์‚ฐํ•ด์˜จ ๊ธฐ์šธ๊ธฐ์˜ ์ง€์ˆ˜ํ‰๊ท ์„ ์ €์žฅํ•˜๋ฉฐ, RMSProp๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๊ธฐ์šธ๊ธฐ์˜ ์ œ๊ณฑ๊ฐ’์˜ ์ง€์ˆ˜ํ‰๊ท ์„ ์ €์žฅํ•œ๋‹ค.

Adam์—์„œ๋Š” m๊ณผ v๊ฐ€ ์ฒ˜์Œ์— 0์œผ๋กœ ์ดˆ๊ธฐํ™”๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต์˜ ์ดˆ๋ฐ˜๋ถ€์—์„œ๋Š” mt,vt๊ฐ€ 0์— ๊ฐ€๊น๊ฒŒ bias ๋˜์–ด์žˆ์„ ๊ฒƒ์ด๋ผ๊ณ  ํŒ๋‹จํ•˜์—ฌ ์ด๋ฅผ unbiased ํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” ์ž‘์—…์„ ๊ฑฐ์นœ๋‹ค.

mt์™€ vt์˜ ์‹์„ โˆ‘ํ˜•ํƒœ๋กœ ํŽผ์นœ ํ›„ ์–‘๋ณ€์— expectation์„ ์”Œ์›Œ์„œ ์ •๋ฆฌํ•ด๋ณด๋ฉด, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ณด์ •์„ ํ†ตํ•ด unbiased ๋œ expectation์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ์ด ๋ณด์ •๋œ expectation๋“ค์„ ๊ฐ€์ง€๊ณ  gradient๊ฐ€ ๋“ค์–ด๊ฐˆ ์ž๋ฆฌ์— mt^, Gt๊ฐ€ ๋“ค์–ด๊ฐˆ ์ž๋ฆฌ์— vt^๋ฅผ ๋„ฃ์–ด ๊ณ„์‚ฐ์„ ์ง„ํ–‰ํ•œ๋‹ค.
๋ณดํ†ต ฮฒ1๋กœ๋Š” 0.9, ฮฒ2๋กœ๋Š” 0.999, ฯต์œผ๋กœ๋Š” 10^โˆ’8์ •๋„์˜ ๊ฐ’์„ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•œ๋‹ค.

7. AdaDelta (์–ด๋ ค์›Œ์„œ ์Šคํ‚ต.. ์ถ”ํ›„ ๋‹ค์‹œ ์“ฐ์ž)

AdaDelta๋Š” RMSProp๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ AdaGrad์˜ ๋‹จ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์ด๋‹ค.
AdaDelta๋Š” RMSProp๊ณผ ๋™์ผํ•˜๊ฒŒ G๋ฅผ ๊ตฌํ•  ๋•Œ ํ•ฉ์„ ๊ตฌํ•˜๋Š” ๋Œ€์‹  ์ง€์ˆ˜ํ‰๊ท ์„ ๊ตฌํ•œ๋‹ค. ๋‹ค๋งŒ, ์—ฌ๊ธฐ์—์„œ๋Š” step size๋ฅผ ๋‹จ์ˆœํ•˜๊ฒŒ ฮท๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹  step size์˜ ๋ณ€ํ™”๊ฐ’์˜ ์ œ๊ณฑ์„ ๊ฐ€์ง€๊ณ  ์ง€์ˆ˜ํ‰๊ท  ๊ฐ’์„ ์‚ฌ์šฉํ•œ๋‹ค.

8. NAG

NAG๋Š” momentum ๊ฐ’๊ณผ gradient ๊ฐ’์ด ๋”ํ•ด ์ € ์‹ค์ œ(actual) ๊ฐ’์„ ๋งŒ๋“œ๋Š” ๊ธฐ์กด ๋ชจ๋ฉ˜ํ…€๊ณผ ๋‹ฌ๋ฆฌ momentum ๊ฐ’์ด ์ ์šฉ๋œ ์ง€์ ์—์„œ gradient ๊ฐ’์ด ๊ณ„์‚ฐ๋œ๋‹ค. ์ˆ˜์‹์„ ํ†ตํ•ด gradient๋ฅผ ๊ตฌํ•  ๋•Œ ๋ถ„๋ชจ()์˜ W(๊ฐ€์ค‘์น˜)์— ๋จผ์ € mV(t-1) ๊ฐ’์„ ๋”ํ•ด ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ด๋ž€ ๊ฑธ ์•Œ ์ˆ˜ ์žˆ๋‹ค.


์ด ๋‹จ๊ณ„๋ฅผ ์ถ”๊ฐ€ํ•จ์œผ๋กœ V(t)๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์ „ ๋ชจ๋ฉ˜ํ…€ ๋ฐฉ๋ฒ•์œผ๋กœ ์ธํ•ด ์ด๋™๋  ๋ฐฉํ–ฅ์„ ๋ฏธ๋ฆฌ ์˜ˆ์ธกํ•˜๊ณ  ํ•ด๋‹น ๋ฐฉํ–ฅ์œผ๋กœ ์–ผ๋งˆ๊ฐ„ ๋ฏธ๋ฆฌ ์ด๋™ํ•œ ๋’ค gradient๋ฅผ ๊ณ„์‚ฐํ•œ๋Š” ํšจ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰ ํ•œ ๋‹จ๊ณ„๋ฅผ ๋ฏธ๋ฆฌ ์˜ˆ์ธกํ•จ์œผ๋กœ์จ ๋ถˆํ•„์š”ํ•œ ์ด๋™์„ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค.

9. Nadam

Nadam์€ Adam์—์„œ ์ ์šฉํ•œ ๋ชจ๋ฉ˜ํ…€ ๊ธฐ๋ฒ•์„ NAG๋กœ ๋ณ€๊ฒฝํ•˜์˜€๋‹ค. Nadam์€ Adam๊ณผ NAG์˜ ์žฅ์ ์„ ํ•ฉ์ณค๊ธฐ ๋•Œ๋ฌธ์—, Adam๋ณด๋‹ค ๋” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ „์—ญ ์ตœ์†Ÿ๊ฐ’์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.
NAG ๊ณต์‹์—์„œ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐฑ์‹ ์„ ์œ„ํ•˜์—ฌ ์ด์ „ ๋‹จ๊ณ„์˜ ๋ชจ๋ฉ˜ํ…€(m(t-1))์„ 2๋ฒˆ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. Nadam์€ ์ด๋ฅผ ์กฐ๊ธˆ ๋ณ€ํ˜•ํ•œ๋‹ค. ์ด์ „ ๋‹จ๊ณ„์˜ ๋ชจ๋ฉ˜ํ…€(m(t-1))์„ ๋Œ€์‹ ํ•˜์—ฌ ํ˜„์žฌ์˜ ๋ชจ๋ฉ˜ํ…€(mt)์„ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๋ฏธ๋ž˜์˜ ๋ชจ๋ฉ˜ํ…€์„ ์‚ฌ์šฉํ•˜๋Š” ํšจ๊ณผ๋ฅผ ์–ป๋Š”๋‹ค. ์ด๋ฅผ NAG์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •์— ๋ฐ˜์˜ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.
์œ„์˜ ํšจ๊ณผ๋ฅผ Adam์— ์ ์šฉํ•œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ๊ธฐ์กด์˜ Adam์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๋ถ€๋ถ„์„ ์กฐ๊ธˆ ๋” ํ’€์–ด์„œ ์ž‘์„ฑํ•ด์•ผ ํ•œ๋‹ค.

Adam๊ณผ Nadam์˜ ์‹œ๊ฐํ™” ๊ฒฐ๊ณผ๋ฅผ ๋น„๊ตํ•ด๋ณด๋ฉด, Nadam์ด ๋” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ „์—ญ ์ตœ์†Ÿ๊ฐ’์„ ์ฐพ์•„๋‚ธ๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

Reference:

0๊ฐœ์˜ ๋Œ“๊ธ€