π μΌλΌμ€ μ°½μμμκ² λ°°μ°λ λ₯λ¬λ (νλμμ μλ , λ°ν΄μ , κΈΈλ²) μ°Έκ³
μ€μ μ κ²½λ§μμλ νλΌλ―Έν°μ κ°μκ° μμ² κ°λ³΄λ€ μ μ κ²½μ°κ° κ±°μ μκ³ , μμ²λ§ κ°κ° λλ κ²½μ°λ μ’ μ’ μκΈ° λλ¬Έμ μ΄ μ ν¬μ€νΈμμ μΈκΈν gradient(f)(W) = 0μ νμ΄ κ°μ₯ μμ μμ€ ν¨μλ₯Ό λ§λλ κ²μ μ΄λ €μ΄ μΌμ΄λ€.
κ·Έλμ μ 체 λ°μ΄ν°(batch) λμ μΌλΆ λ°μ΄ν°(mini-batch)λ§ μ¬μ©νμ¬ κ³μ°μ νλ λ°©λ²μ΄ λ°λ‘ Stochastic Gradient Descent(SGD, νλ₯ μ κ²½μ¬νκ°λ²)μ΄λ€. μ΄λ μ 체 λ°μ΄ν°λ₯Ό μ¬μ©νλ κ²λ³΄λ€λ λΆμ νν μ μμ§λ§ κ³μ° μλκ° ν¨μ¬ λΉ λ₯΄λ€. μ¦ κ°μ μκ°λμ λ λ§μ stepμ μ΄λν μ μμΌλ©° μΌλ°μ μΌλ‘ batch κ²°κ³Όμ μλ ΄νλ€.
Stochastic(νλ₯ μ )μ΄λΌλ λ¨μ΄λ κ° λ°°μΉ λ°μ΄ν°κ° 무μμλ‘ μ νλλ€λ μλ―Έμ΄λ€. (randomμ κ³Όνμ ννμ΄ stochastic)
μ κ·Έλ¦Όμ κΈ°μΈκΈ°κ° 0μ΄ λλ μ§μ μ΄ 2κ° μ΄μμ΄λ€. μ΄λ₯Ό nonconvexλΌκ³ νννκ³ μ΄μ λ°λλ‘ μ΅μμ μ΄ ν κ°, μ¦ κΈ°μΈκΈ°κ° 0μΈ μ§μ μ΄ 1κ°μΈ κ²½μ°λ₯Ό convexλΌκ³ νννλ€. μ°λ¦¬λ μ μ μ΅μκ°(Global Minimum)μΌλ‘ λλ¬νλ κ²μ΄ λͺ©νμ§λ§ SGDλ‘ μ΅μ ννκ² λλ©΄ μ§μ μ΅μκ°(Local Minimum)μ κ°νκ² λ μ μλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ SGDλ₯Ό λ³κ²½ν λ€μν μ΅μ ν λ°©λ², Optimizatio Methodλ€μ΄ μ‘΄μ¬νλ€.
λͺ¨λ©ν μ κ°λ¨νκ² ννν΄μ μ΄λ κ³Όμ μ κ΄μ±μ λ°μνλ κ²μ΄λ€. κ³Όκ±°μ μ΄λνλ λ°©ν₯μ κΈ°μ΅νμ¬ μ΄λμ λ°μνλ κ²μ΄λ€. μ¦ λ°λ‘ μ§μ μμ μ κ°μ€μΉ μ λ°μ΄νΈ λ³νλμ μ μ©νλ€.
νμ΅ νμκ° μ¦κ°νλ©΄ μ μ μ΅μκ°μ κ°κΉμμ§λ κ²μ΄κΈ° λλ¬Έμ νμ΅λ₯ μ μκ² μ‘°μ νμ¬ μμ μ μΌλ‘ μ΅μκ°μ λλ¬ν μ μλλ‘ νλ λ°©λ²μ΄λ€. νμ΅λ₯ κ°μ μμ ν΅ν΄ νμ΅λ₯ μ μ‘°μ νλ€.
πΎ = πΎ / (1+ πβπ)
π = π + (ππΈ)^2
π(π‘+1) = (ππ‘ β πΎ) / (βπ β ππΈ)
Adagradμ λ¨μ μΈ Gradient μ κ³±ν©(π = π + (ππΈ)^2)μ μ§μνκ· μΌλ‘ λ체ν κ²μ΄λ€.
RMSProp + Momentum κ°κ°μ μ₯μ μ ν©μΉ μκ³ λ¦¬μ¦μ΄λ€. Momentumκ³Ό κ°μ΄ μ§κΈκΉμ§ κ³μ°ν κΈ°μΈκΈ°μ μ§μνκ· μ μ μ₯νκ³ RMSPropκ³Ό κ°μ΄ κΈ°μΈκΈ° μ κ³±κ°μ μ§μνκ· μ μ μ₯νλ€.