hypothesis
H(x) = Wx
β μ΅μμ (minimize) λ₯Ό μ°Ύλκ² λͺ©ν
cost ν¨μ μ΅μν
cost ν¨μκ° μ£Όμ΄μ‘μ λ, μμ λ₯Ό μ΅μν νλ μ λ₯Ό μ°Ύμμ€
cost ν¨μ λ§κ³ λ κ°μ’ optimizationμ μ΄μ©λλ μΌλ°©μ μΈ λ°©λ²
β λ λ§μ κ°λ€μ΄ μ£Όμ΄μ§λλΌλ, μ΅μν ν μ μμ
λ―ΈλΆμ κ³μ° νΈμλ₯Ό μν΄ μλ μμκ³Ό κ°μ΄ λ³ν
: cost ν¨μλ₯Ό μ΅μν νλ Wλ₯Ό ꡬνκ³ λͺ¨λΈμ λ§λ€ μ μλ€.
* Ξ± : learning rate (μμ)
* := : "assignment" μ°μ°μ
: cost functionμ 3μ°¨μμΌλ‘ λνλ΄μμ λ, Gradient descent algorithmμ μ μ©νμ¬ κΈ°μΈκΈ°λ₯Ό λ΄λ €κ° 보면 μ΅μνλλ μ§μ μ΄ μ¬λ¬κ΅°λ° μκΈΈ μ μμΌλ―λ‘ μκ³ λ¦¬μ¦μ΄ μ λλ‘ λμνμ§ μλ λ¨μ μ΄ μμ
: cost function μ λ¨μ μ 보μνκΈ° μν΄μ, Hypothesisμ cost functionμ μ¬μ©νμ¬ Convex functionμ μλμ κ°μ΄ λ§λ€μ΄μ£Όλ©΄, μ΄λ μ§μ μμ μμνλ κ°μ λμ°©νλ μ μ΄ μ΅μκ°μ΄ λ¨
μ¦, cost functionμ μ€κ³ν λ λ°λμ μλλ‘ λ³Όλ‘ν λͺ¨μμ κ°μ§λ Convex functionμ΄ λμ΄μΌ ν¨
μ°Έκ³ κ°μ’ : λͺ¨λλ₯Ό μν λ₯λ¬λ κ°μ’
μ°Έκ³ μ¬μ΄νΈ : Wikidocs