
1980λ
λ (1950) λΆν° μ κ²½λ§(Neural Networks)μ΄ μΈκΈ°λ₯Ό λκΈ° μμνμ¬, NeurIPS, Snowbird κ°μ νλ₯ν ννλ€κ³Ό λλΆμ΄ λ§μ μ±κ³΅ μ¬λ‘μ ν° κΈ°λλ₯Ό λͺ¨μλ€.
1990λ
λμ λ€μν κΈ°λ²λ€μ΄ λ±μ₯νλ©΄μ λ·μ μΌλ‘ λ°λ Έμ§λ§, 2010λ
κ²½ "λ₯λ¬λ"μΌλ‘ λΆννμ¬ νμ¬λ λ§€μ° μ§λ°°μ μΈ λΆμΌμ΄λ€.
μ±κ³΅ λ°°κ²½μλ Computing Power, Larger Training Sets, PyTorch, Tensorflow
PyTorch
κ°νΈνκ³ μ μ°μ±μ΄ μ’μΌλ©° Pythonic(νμ΄μ¬κ³Όμ μ°κ³)νλ€.Tensorflow
μ μ κ³μ° κ·Έλν(static computation graph)'λ₯Ό μ¬μ©νμ¬ μ¬μ μ κ³νμ΄ νμνλ€.κ³ μ±λ₯ λͺ¨λΈ κ°λ°μ μ 리νλ€.π = π(π) β λͺ©νλ μ
λ ₯ πΏλ‘λΆν° κ²°κ³Ό πλ₯Ό μμΈ‘νλ κ².
π: λ°μ λ³μ (μμΈ‘νκ³ μ νλ κ°)
π = (πβ, β¦ , πβ): μ
λ ₯ 벑ν°, μ΄ pκ°μ λ³μλ‘ κ΅¬μ±λ¨
π(π): μ
λ ₯ πΏμ λν λΉμ ν ν¨μ, νμ΅μ ν΅ν΄ μΆμ λ¨
νλΌλ―Έν°μ κ°μ
λ λ€μκ³Ό κ°λ€. β
ν¨μ νν:
μ΄λ, κ° μλ μ λ λ λ€μκ³Ό κ°μ΄ κ³μ°λ¨:
μ 체λ₯Ό λ€μ μ°λ©΄:
π κ΅¬μ± μμ μ€λͺ
K: μλ μ λ(hidden units)μ κ°μ
π(z): μ¬μ μ μ μλ λΉμ ν νμ±ν ν¨μ (μ: ReLU, sigmoid, tanh λ±)
π€ββ±Ό: μλμΈ΅μ κ°μ€μΉ
π½β, π½β: μΆλ ₯μΈ΅μ λ°μ΄μ΄μ€μ κ°μ€μΉ
λ μλμΈ΅μμμ νμ±κ°(activation) μ΄λΌκ³ λΆλ¦°λ€.
μ¬κΈ°μ λ νμ±ν ν¨μ(activation function) λΌκ³ νλ€.
μμ£Ό μ¬μ©λλ νμ±ν ν¨μλ‘λ μκ·Έλͺ¨μ΄λ(Sigmoid) μ ReLU(Rectified Linear Unit) κ° μλ€.
μΆλ ₯κ°μ νμ 0κ³Ό 1 μ¬μ΄μ΄λ©°, νλ₯ μ²λΌ ν΄μν μ μλ€.
μ
λ ₯μ΄ 0λ³΄λ€ μμΌλ©΄ 0μ μΆλ ₯νκ³ , 0 μ΄μμ΄λ©΄ κ·Έλλ‘ μΆλ ₯νλ€.
ReLU ν¨μλ μκ·Έλͺ¨μ΄λλ³΄λ€ κ³μ° ν¨μ¨μ΄ λκΈ° λλ¬Έμ, μ΅κ·Όμ μ κ²½λ§ λͺ¨λΈμμλ ReLUκ° κΈ°λ³Έ νμ±ν ν¨μλ‘ λ리 μ¬μ©λλ€.
μλμΈ΅μμμ νμ±ν ν¨μλ μΌλ°μ μΌλ‘ λΉμ νμ΄λ€.
λ§μ½ νμ±ν ν¨μκ° μ νμ΄λΌλ©΄, μ 체 μ κ²½λ§ λͺ¨λΈμ κ²°κ΅ μ ν λͺ¨λΈλ‘ μλ ΄νκ² λλ€.
(μ¦, μλμΈ΅μ μλ μλ―Έκ° μ¬λΌμ§λ€.)
β λͺ¨λΈ μμ
βΌοΈ μμ: μ΄μ°¨ ν¨μ(quadratic function)λ₯Ό νμ±ν ν¨μλ‘ μ¬μ©ν κ²½μ° (λΉμ νμ΄μ§λ§ λ§€μ° λ¨μν νν)
- μ λ ₯
- μλ μ λ μ:
- νμ±ν ν¨μ:
- κ°μ€μΉ λ° κ³μ:
- μλ μ λ κ³μ°:
- μ΅μ’ μΆλ ₯:
μ¦, κ²°κ³Όλ μ λ ₯ κ° μνΈμμ©(interaction term) μ λνλ΄λ νμ΄μ§λ§, μ¬μ ν μ ν λͺ¨λΈμ΄λ€!
β
λͺ¨λΈνμ΅
μ κ²½λ§ λͺ¨λΈμ λ€μ μμ€ ν¨μλ₯Ό μ΅μννμ¬ νμ΅λλ€. (μ: νκ· λ¬Έμ ):
νλμ μ κ²½λ§(Modern Neural Networks)μ μΌλ°μ μΌλ‘ νλ μ΄μμ μλμΈ΅(hidden layer)μ κ°μ§λ€.
μ λΉν ν¬κΈ°μ μ¬λ¬ μλμΈ΅μ μλ κ²μ΄ ν¨μ¬ λ μ’μ ν΄λ²μ μ°Ύλ λ° μ©μ΄νλ€.
μ¦, λ€μΈ΅ ꡬ쑰(multi-layer structure)κ° νμ΅μ λ ν¨μ¨μ μ΄κ³ ν¨κ³Όμ μΌλ‘ λ§λ λ€.
MNIST: μκΈμ¨ μ«μ (0~9) μ΄λ―Έμ§ λ°μ΄ν°μ
28 Γ 28 ν¬κΈ°μ νλ°± μ΄λ―Έμ§, μ΄ 784κ°μ ν½μ
ν½μ κ°μ 0~255 λ²μμ μ μκ° (νμ΅μ© 60,000μ₯, ν μ€νΈμ© 10,000μ₯)
μ
λ ₯ 벑ν°:
μΆλ ₯ λ²‘ν° (one-hot μΈμ½λ©λ λλ―Έ λ³μ μ β 10κ°μ€ νλλ§ 1):
μλ μ λ κ³μ°:
κ°μ€μΉ νλ ¬ ν¬κΈ°:
μλ μ λ κ³μ°:
κ°μ€μΉ νλ ¬ ν¬κΈ°:
μ ν κ²°ν©:
κ°μ€μΉ νλ ¬ ν¬κΈ°:
μ 체 νλΌλ―Έν° μ (bias ν¬ν¨):
λ©ν°ν΄λμ€ λ‘μ§μ€ν± νκ·μ λμΌν λ°©μ
10κ°μ νλ₯ κ°μ 0 μ΄μμ΄λ©° ν©μ΄ 1, κ°μ₯ λμ νλ₯ μ ν΄λμ€λ₯Ό μ΅μ’
μμΈ‘
negative log-likelihoodλ₯Ό μ΅μννκΈ° μν¨
λ§μ νλΌλ―Έν° μ β μ κ·ν(regularization)κ° νμ
μ¬μ©λ μ κ·ν λ°©μ: λ¦Ώμ§(Ridge), λλ‘μμ(Dropout)
μ΅κ³ μ λͺ¨λΈμ μλ¬μ¨ 0.5% λ―Έλ§ λ¬μ± (μΈκ°μ μλ¬μ¨μ μ½ 0.2% (ν
μ€νΈ μ΄λ―Έμ§ 10,000μ₯ μ€ 20κ° μ€λ₯))
2D Tensor: (#Samples, #Features)