π¨βπ« λ³Έ 리뷰λ cs231n-2017 κ°μλ₯Ό λ°νμΌλ‘ μ§ννμ΅λλ€.
π μ κ°μλ€μμ λ€μν Loss functionκ³Ό Reqularzation κ·Έλ¦¬κ³ Optimazationμ λν΄μ νμ΅νμ΅λλ€. μ΄λ² μκ°μλ μμ ν(Backpropagation)μ λν΄ νμ΅νλλ‘ νκ² μ΅λλ€.
π μμ κ·Έλ¦Όμ μ°λ¦¬κ° μ§κΈκΉμ§ λ°°μ λ Neural Networkμ ꡬ쑰λ₯Ό λμ± κΉμ΄ν, μ‘°κΈ λ μ€μ λ₯λ¬λ λ€νΈμν¬μ κ°κΉμ΄ κ·Έλ¦Όμ λλ€. input imageλΆν° lossκΉμ§ μ°μ° κΉμ΄κ° λ무λλ κΉμ΅λλ€. μΌλ°μ μΌλ‘ input imageμμ lossκΉμ§μ μ°μ°μ μμ νλΌκ³ ν©λλ€. μμ νλ μ΄λ¦ κ·Έλλ‘ λ°λλ‘ νλ μ°μ°μ λλ€.
π μμ νκ° μ νμν κΉμ? μ°λ¦¬λ gradientλ₯Ό ν΅ν΄ optimizationμ ν΄μΌν©λλ€. gradient κ³μ°μ νκΈ° μν΄μ λΉμ°νκ²λ λ―ΈλΆ κ°μ΄ νμν©λλ€. νμ§λ§ μμ μ¬μ§μ λ³Ό μ μλ―μ΄ lossλ₯Ό ꡬν ν λ€μ κ°κ°μ λ―ΈλΆ κ°μ ꡬνλ건 λ무λλ λΉν¨μ¨μ μ λλ€. κ·Έλμ μ°λ¦° μ°μλ²μΉ(Chain Rule)μ μ΄μ©ν μμ ν μ°μ°μ ν΅ν΄ ν¨μ¨μ μΌλ‘ λ―ΈλΆ κ°μ κ³μ° ν μ μμ΅λλ€.
π μμ κ°κ°μ , , μ κ°λ¨ν μ°μ°μ μ¬μ©ν μμ ν μμ μ λλ€. μ΄λ‘μμΌλ‘ μλ λΆλΆμ μμ ν μ°μ°μ κ²°κ³Όμ λλ€. μ°λ¦¬λ μ΄μ λΆν° μμ ν μ°μ°μ μ§νν©λλ€. λ¨Όμ μκΈ° μμ μ λ―ΈλΆν©λλ€. λΉμ°ν κ²°κ³Όλ 1 μ λλ€.
π λ€μμΌλ‘ λ‘ λ―ΈλΆν©λλ€. μμ referenceμμ μΉμ νκ² (=3)λΌκ³ μλ €μ€λλ€.
π λ€μμΌλ‘ λ‘ λ―ΈλΆν©λλ€. μμλ referenceμμ μΉμ νκ² (=-4)λΌκ³ μλ €μ€λλ€.
π μ΄μ λΆν° μ°μλ²μΉ(chain rule)μ μ¬μ©ν΄ μ°μ°μ μ§νν©λλ€. μ°λ¦¬κ° κ³μ°νκ³ μ νλ λ―ΈλΆ μ°μ°μ μ λλ€. μ°λ¦¬λ μμ μ¬μ§μ Chain ruleμ μ¬μ©ν΄ μ°μ°ν©λλ€. Chain ruleμ μ¬μ©νλ μ΄μ λ μ°λ¦¬λ μμ κ³μ°μμμ λ―ΈλΆ κ°μ μκΈ° λλ¬Έμ μκΈ° μ£Όλ³μ localμ λν λ―ΈλΆλ§μ κ³μ°ν ν μ°μ°νλ©΄ λκΈ° λλ¬Έμ λλ€. μ°μ°μ λν λ―ΈλΆμ 1μ΄κΈ° λλ¬Έμ κ·Έλλ‘ -4κ° λμ΅λλ€. λλ¨Έμ§ λν λμΌν λ°©λ²μΌλ‘ μ§νλ©λλ€.
π μμ μ¬μ§κ³Ό κ°μ΄ "local gradient"λ§ μ μ μλ€λ©΄, μμ (upstream)μ λ―ΈλΆ κ°μΌλ‘ Chain ruleμ μ¬μ©ν΄ μ½κ² λ―ΈλΆ μ°μ°μ μ§νν μ μμ΅λλ€. μ°λ¦¬λ μμ ν μ°μ°μμ κ°κ°μ κ°λ§ μ μ₯ν΄ λλλ€λ©΄ μμ ν μ°μ°μ ν΅ν΄ μ½κ² grediantλ₯Ό κ³μ°ν μ μμ΅λλ€.
π μμ μ¬μ§μ sigmode function(non-linear)μ μ¬μ©ν μ‘°κΈ λ 볡μ‘ν μμ ν κ³μ°μ λλ€. νλμ© μ²μ²ν μ°μ°μ μ§ννλ©΄ κ°κ°μ κ°μ κ³μ°ν μ μμ΅λλ€.
Q. What is a max gate ?
π μμ max gateλ μ΄λ€ μνμ ν κΉμ? μμ μ¬μ§μμλ gradient router λΌκ³ ννν©λλ€. μμ νλ‘ μ§νλλ max μ°μ°μ μκ°ν΄λ³΄λ©΄ maxκ°μ μ μΈλ§ λλ¨Έμ§ κ°μ μ°μ°μ μν₯μ μ£Όμ§ μμ΅λλ€. κ·Έλ κΈ°μ μμ ν κ³Όμ μμλ μν₯μ μ€ λ Έλμκ²λ§ νλ¬κ°λλ€.
Q. What is a mul gate ?
π μμ mul gateλ gradient switcherλΌκ³ ννν©λλ€. μμ ν νλ¦μ μ 보면 κ°κ°μ λ°λμ κ°μ κ³±ν κ°μ΄ νλ₯΄λ κ²μ λ³Ό μ μμ΅λλ€.
Q. What is the size Jacobain matrix?
π μ¬μ€ μ°λ¦° μ€μΉΌλΌ κ°μ λ€λ£¨λ κ²μ΄μλλΌ, λ°±ν° μ°μ°μ ν©λλ€. μ°λ¦° μμ½λΉμ νλ ¬μ μ¬μ©ν΄ μ€μ λ‘ μ°μ°μ μ§νν©λλ€.(μμ½λΉμ νλ ¬μ κ΄λ ¨ λ§ν¬ μ λλ€.) 4096κ°μ vectorλ₯Ό input λ£μΌλ©΄ [4096 x 4096]μ νλ ¬μ μ΄λ£¨κ³ μμκ²λλ€.
π μ§κΈλΆν°λ 벑ν°λ₯Ό μ¬μ©ν μμ μ λν΄ νμ΅ν κ²μ λλ€. 벑ν°μ λν μμ ν μ°μ°μ μ§νν©λλ€. κ·Έλ¦¬κ³ μ°λ¦¬λ L2 Normμ μ¬μ©νκΈ°μ = κ²°κ³Όλ₯Ό μ»μ μ μμ΅λλ€.
π μ΄μ΄μ μμ ν μ°μ°μ μ§νν©λλ€. Wμ λν λ―ΈλΆ μ°μ°μ μ§νν©λλ€. μ μ°μ°μ μ§νν©λλ€. κ°κ°μ μ°μ°μ μνν΄λ³΄λ©΄ , , , μ°μ°μ μνν©λλ€. λν gradientμ κ°μ€μΉμ shapeμ νμ μΌμΉν΄μΌν©λλ€.
π μ λν λ―ΈλΆ μ°μ°μ λν μ§νν©λλ€. μ μ°μ°μ μνν©λλ€. κ°κ°μ μ°μ°μ μ§νν΄λ³΄λ©΄ , μ°μ°μ μνν©λλ€.
π Multiply Gate μμ μ½λμ λλ€. forwardμ κ°κ°μ λ³μλ₯Ό λ°λ‘ μ μ₯ν©λλ€. backwardμ μ μ₯ν λ³μλ₯Ό μ¬μ©ν΄ μ°μ°μ μ§νν©λλ€.