
π μΌλΌμ€ μ°½μμμκ² λ°°μ°λ λ₯λ¬λ (νλμμ μλ , λ°ν΄μ , κΈΈλ²) μ°Έκ³
ν¨μν λͺ¨λΈμ νμ΅ μ리λ μ΄μ ν¬μ€ν μμ μ€λͺ ν Gradient Descentμ΄λ€. Parameter Updateλ₯Ό νκΈ° μν΄ κ° νλΌλ―Έν°λ€μ νΈλ―ΈλΆκ°μ ꡬν΄μ λΉΌλ λ°©μμΌλ‘ νμ΅μ μ§ννμλ€. νμ§λ§ Parameter κ°μκ° 100λ§κ° μ΄μμΌλ‘ κ΅μ₯ν λ§μ κ²½μ° μμΉλ―ΈλΆμΌλ‘ κ³μ°νλ κ²μ΄ κ°λ₯ν κΉ?
μ΄μ ν¬μ€ν μμλ μΈκΈνλ― μ€μ μ κ²½λ§μμλ νλΌλ―Έν°μ κ°μκ° μμ² κ°λ³΄λ€ μ μ κ²½μ°κ° κ±°μ μμΌλ©° μμ²λ§ κ°μ νλΌλ―Έν°λ₯Ό κ°λ κ²½μ°λ μ’ μ’ μλ€. Hidden Layerμ μ, Nodeμ κ°μ λ±μ μν₯μ λ°μ κ°μκ° μ¦κ°νλ κ²μ΄λ€. Parameterμ μλ Model Capacityμ μν₯μ μ€λ€. νμ§λ§ νλΌλ―Έν°μ κ°μκ° μ¦κ°νλ©΄ νμ΅μκ°μ μν₯μ μ€ κ²μ΄λ€.
κ·Έλ λ€λ©΄ μμΉλ―ΈλΆμ νμ§ μκ³ λ―ΈλΆ κ°μ μ»μ μλ μμκΉ?

μ κ²½λ§ λͺ¨λΈμ μ μμμ²λΌ κ°λ¨ν ν¨μλ€μ ν©μ± ν¨μλ‘ λ³Ό μ μλ€. μ¦, κ°λ¨ν ν¨μλ€μ΄ μ€μ²©λ ννλ‘ κ΅¬μ±λμ΄ μλ€.
κ·Έλ κΈ° λλ¬Έμ μ°λ¦¬λ μ°μ λ²μΉμ μ μ©ν μ μλ€.
Chain Rule, λ―ΈλΆμ μ°μ λ²μΉμ΄λ ν©μ± ν¨μμ λ―ΈλΆμ ν©μ± ν¨μλ₯Ό ꡬμ±νλ κ°λ³ ν¨μ λ―ΈλΆμ κ³±μΌλ‘ λνλΌ μ μλ€λ κ²μ μλ―Ένλ€.


μμ κ°μ ꡬ쑰μ μ κ²½λ§μ΄ μμ λ μ°μ μΌμͺ½μμ μ€λ₯Έμͺ½ λ°©ν₯μΌλ‘(Forward) μ°μ°μ νλ©° Cost, μ€μ°¨κ°μ κ³μ°νλ€.

n3 λ Έλλ₯Ό νλν΄λ³΄λ©΄ μ΄λ° κ΅¬μ‘°λ‘ λνλ κ²μ΄λ€. μ°λ¦¬λ W21μ μ λ°μ΄νΈνμ λ μ€μ°¨κ°μ΄ μΌλ§λ κ°μν μ§ μκ³ μΆλ€. μ΄κ²μ μλμ κ°μ μμμΌλ‘ ννν μ μλ€.

μ΄ μμμ μ°μ λ²μΉμ νμ©νμ¬ νλ©΄ μ€μ°¨κ° Β· μΆλ ₯κ°(1-μΆλ ₯κ°) Β· μ λ ₯κ°μ ννλ‘ λνλΌ μ μλ€. μ¦, λ―ΈλΆ μ°μ°μ νμ§ μκ³ Forward Propagation κ²°κ³Όλ§μΌλ‘ λ―ΈλΆ κ°μ μ»μ μ μλ κ²μ΄λ€.

λ―ΈλΆμ νμ§ μκ³ μ€μ°¨κ°, μΆλ ₯κ°, μ λ ₯κ°μ μ΄μ©ν΄μ κ°μ€μΉλ₯Ό μμ κ°μ μμ ν΅ν΄ μ λ°μ΄νΈ ν μ μλ€.
μμΉ λ―ΈλΆμ κ³μ°νλ κ²μ λ§μ μ»΄ν¨ν μμ λ° μκ°μ΄ μμλκΈ° λλ¬Έμ μ΄μ κ°μ΄ λ―ΈλΆμ νμ§ μκ³ Forward Propagationμ κ²°κ³Όλ₯Ό μ λ¬νλ©° νλΌλ―Έν° μ λ°μ΄νΈλ₯Ό νλ λ°©λ²μ΄ λ°λ‘ Backpropagation, μμ ν μκ³ λ¦¬μ¦μ΄λ€. μμ ν μκ³ λ¦¬μ¦μ ν΅ν΄ μ°λ¦¬λ hidden layerλ nodeμ μκ° μ¦κ°νμ¬λ νμ΅ μλμ μν₯μ λ°μ§ μκ³ νμ΅ν μ μλ€.