πŸ“– μΌ€λΌμŠ€ μ°½μ‹œμžμ—κ²Œ λ°°μš°λŠ” λ”₯λŸ¬λ‹ (ν”„λž‘μ†Œμ™€ μˆ„λ ˆ, λ°•ν•΄μ„ , κΈΈλ²—) μ°Έκ³ 

🧸 Stochastic Gradient Descent

μ‹€μ œ μ‹ κ²½λ§μ—μ„œλŠ” νŒŒλΌλ―Έν„°μ˜ κ°œμˆ˜κ°€ 수천 κ°œλ³΄λ‹€ 적은 κ²½μš°κ°€ 거의 μ—†κ³ , 수천만 κ°œκ°€ λ˜λŠ” κ²½μš°λ„ μ’…μ’… 있기 λ•Œλ¬Έμ— 이 μ „ ν¬μŠ€νŠΈμ—μ„œ μ–ΈκΈ‰ν•œ gradient(f)(W) = 0을 ν’€μ–΄ κ°€μž₯ μž‘μ€ 손싀 ν•¨μˆ˜λ₯Ό λ§Œλ“œλŠ” 것은 μ–΄λ €μš΄ 일이닀.

κ·Έλž˜μ„œ 전체 데이터(batch) λŒ€μ‹  일뢀 데이터(mini-batch)만 μ‚¬μš©ν•˜μ—¬ 계산을 ν•˜λŠ” 방법이 λ°”λ‘œ Stochastic Gradient Descent(SGD, ν™•λ₯ μ  κ²½μ‚¬ν•˜κ°•λ²•)이닀. μ΄λŠ” 전체 데이터λ₯Ό μ‚¬μš©ν•˜λŠ” κ²ƒλ³΄λ‹€λŠ” λΆ€μ •ν™•ν•  수 μžˆμ§€λ§Œ 계산 속도가 훨씬 λΉ λ₯΄λ‹€. 즉 같은 μ‹œκ°„λ™μ•ˆ 더 λ§Žμ€ step을 이동할 수 있으며 일반적으둜 batch 결과에 μˆ˜λ ΄ν•œλ‹€.

Stochastic(ν™•λ₯ μ )μ΄λΌλŠ” λ‹¨μ–΄λŠ” 각 배치 데이터가 λ¬΄μž‘μœ„λ‘œ μ„ νƒλœλ‹€λŠ” μ˜λ―Έμ΄λ‹€. (random의 과학적 ν‘œν˜„μ΄ stochastic)

  • mini-batch stochastic gradient descent : λžœλ€ν•œ ν›ˆλ ¨ μƒ˜ν”Œ λ°°μΉ˜μ™€ 이에 μƒμ‘ν•˜λŠ” νƒ€κΉƒμœΌλ‘œ 계산
  • true stochastic gradient descent : λ°˜λ³΅λ§ˆλ‹€ ν•˜λ‚˜μ˜ μƒ˜ν”Œκ³Ό ν•˜λ‚˜μ˜ 타깃을 λ½‘λŠ” 것
  • batch stochastic gradient descent : κ°€μš©ν•œ λͺ¨λ“  데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ 반볡 μ‹€ν–‰

🧸 Optimization Method

μœ„ 그림은 κΈ°μšΈκΈ°κ°€ 0이 λ˜λŠ” 지점이 2개 이상이닀. 이λ₯Ό nonconvex라고 ν‘œν˜„ν•˜κ³  이와 λ°˜λŒ€λ‘œ μ΅œμ†Œμ μ΄ ν•œ 개, 즉 κΈ°μšΈκΈ°κ°€ 0인 지점이 1개인 경우λ₯Ό convex라고 ν‘œν˜„ν•œλ‹€. μš°λ¦¬λŠ” μ „μ—­ μ΅œμ†Ÿκ°’(Global Minimum)으둜 λ„λ‹¬ν•˜λŠ” 것이 λͺ©ν‘œμ§€λ§Œ SGD둜 μ΅œμ ν™”ν•˜κ²Œ 되면 μ§€μ—­ μ΅œμ†Ÿκ°’(Local Minimum)에 κ°‡νžˆκ²Œ 될 수 μžˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ SGDλ₯Ό λ³€κ²½ν•œ λ‹€μ–‘ν•œ μ΅œμ ν™” 방법, Optimizatio Method듀이 μ‘΄μž¬ν•œλ‹€.

Momentum

λͺ¨λ©˜ν…€μ€ κ°„λ‹¨ν•˜κ²Œ ν‘œν˜„ν•΄μ„œ 이동 과정에 관성을 λ°˜μ˜ν•˜λŠ” 것이닀. 과거에 μ΄λ™ν–ˆλ˜ λ°©ν–₯을 κΈ°μ–΅ν•˜μ—¬ 이동에 λ°˜μ˜ν•˜λŠ” 것이닀. 즉 λ°”λ‘œ 직전 μ‹œμ μ˜ κ°€μ€‘μΉ˜ μ—…λ°μ΄νŠΈ λ³€ν™”λŸ‰μ„ μ μš©ν•œλ‹€.

Adaptive Gradient(Adagrad)

ν•™μŠ΅ νšŸμˆ˜κ°€ μ¦κ°€ν•˜λ©΄ 점점 μ΅œμ†Ÿκ°’μ— κ°€κΉŒμ›Œμ§€λŠ” 것이기 λ•Œλ¬Έμ— ν•™μŠ΅λ₯ μ„ μž‘κ²Œ μ‘°μ ˆν•˜μ—¬ μ•ˆμ •μ μœΌλ‘œ μ΅œμ†Ÿκ°’μ— 도달할 수 μžˆλ„λ‘ ν•˜λŠ” 방법이닀. ν•™μŠ΅λ₯  감쇠식을 톡해 ν•™μŠ΅λ₯ μ„ μ‘°μ •ν•œλ‹€.

𝛾 = 𝛾 / (1+ πœŒβˆ™π‘›)
𝑔 = 𝑔 + (𝑑𝐸)^2
π‘Š(𝑑+1) = (π‘Šπ‘‘ βˆ’ 𝛾) / (βˆšπ‘” βˆ™ 𝑑𝐸)

Root Mean Squeare Propagation(RMSProp)

Adagrad의 단점인 Gradient μ œκ³±ν•©(𝑔 = 𝑔 + (𝑑𝐸)^2)을 μ§€μˆ˜ν‰κ· μœΌλ‘œ λŒ€μ²΄ν•œ 것이닀.

Adaptive Moment Estimation(Adam)

RMSProp + Momentum 각각의 μž₯점을 ν•©μΉœ μ•Œκ³ λ¦¬μ¦˜μ΄λ‹€. Momentumκ³Ό 같이 μ§€κΈˆκΉŒμ§€ κ³„μ‚°ν•œ 기울기의 μ§€μˆ˜ν‰κ· μ„ μ €μž₯ν•˜κ³  RMSPropκ³Ό 같이 기울기 μ œκ³±κ°’μ˜ μ§€μˆ˜ν‰κ· μ„ μ €μž₯ν•œλ‹€.

0개의 λŒ“κΈ€

κ΄€λ ¨ μ±„μš© 정보

Powered by GraphCDN, the GraphQL CDN