๐ก [ ์์ฝ ] :
- ์ญ์ ํ๋ ์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ์ฌ, ์ด๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์
๋ฐ์ดํธํ๋ ๊ณผ์
- ์ด๋, ๊ฐ ๊ณ์ธต์ ์ถ๋ ฅ์ด ๋ค์ ๊ณ์ธต์ ์
๋ ฅ์ด ๋๋ฏ๋ก, ๊ฐ ๊ณ์ธต์ ๋ฏธ๋ถ์ ์ฒด์ธ ๋ฃฐ์ ํตํด ์ฐ๊ฒฐํด์ผ ํจ
- ์ญ์ ํ ๊ณผ์ ์์ ๊ฐ ๋
ธ๋๋ ์๋ฅ ๊ทธ๋๋์ธํธ(์ถ๋ ฅ ์ชฝ์์ ์ ๋ฌ๋จ)๋ฅผ ๋ฐ์ ๋ก์ปฌ ๊ทธ๋๋์ธํธ์ ๊ณฑํ์ฌ ํ๋ฅ ๊ทธ๋๋์ธํธ(์
๋ ฅ ์ชฝ์ผ๋ก ์ ๋ฌ๋จ)
- ์์ ํ์์๋ ์ค๊ฐ ๊ฐ์ ๊ณ์ฐ, ์ญ์ ํ์์๋ ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํ ๊ทธ๋๋์ธํธ๋ฅผ ์ฐจ๋ก๋ก ๊ณ์ฐํ๊ณ ์์ ํ์ ๊ณ์ฐ ์์๋ฅผ ๊ฑฐ๊พธ๋ก ์ํ


์๋ก์ด ํน์ง ๊ณต๊ฐ์์ ์ ํ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฌ์ฉํ ์ ์๋๋ก ํจ

์ ๊ฒฝ๋ง(Neural Networks)
ํ์ต ๊ฐ๋ฅํ ํน์ง ๋ณํ(learnable feature transforms)์ ํน์ง์ ๊ฐ๊ณ ์์
์ ๊ฒฝ๋ง์ ๋ฐ์ดํฐ์์ ์ค์ํ ํน์ง์ ์๋์ผ๋ก ํ์ตํ ์ ์๊ณ , ์ด๋ ๊ณ ์ ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์๋ ํ์ต ๊ฐ๋ฅํ ๋ชจ๋ธ๋ก์, ์
๋ ฅ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์ต์ ํ๋จ
- ๊ฒฐ๊ณผ: ์ต์ข
์ ์ผ๋ก ์ ๊ฒฝ๋ง์ ๊ฐ ํด๋์ค์ ๋ํ ํ๋ฅ ๋๋ ์ ์๋ฅผ ์ฐ์ถํ๋ฉฐ, ์ด๋ ์ด๋ฏธ์ง๊ฐ ์ด๋ ํด๋์ค์ ์ํ๋์ง ์์ธกํ๋ ๋ฐ ์ฌ์ฉ
- ํ๋ จ ๊ณผ์ : ์ด ๊ณผ์ ์์ ์ ๊ฒฝ๋ง์ ์
๋ ฅ ๋ฐ์ดํฐ์ ๋ชฉํ ์ถ๋ ฅ(๋ ์ด๋ธ)์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ฉฐ, ์ ํํ ํน์ง ์ถ์ถ๊ณผ ๋ถ๋ฅ๋ฅผ ํ์ต


1. ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ
- ๋ด๋ฐ(Neurons): ์ ๊ฒฝ๋ง์ ๊ธฐ๋ณธ ๋จ์๋ก, ๊ฐ ๋ด๋ฐ์ ์
๋ ฅ์ ๋ฐ๊ณ ์ด๋ฅผ ์ฒ๋ฆฌํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ค์ ๋ด๋ฐ์ ์ ๋ฌํจ.
- ์
๋ ฅ(Inputs): ๋ด๋ฐ์ผ๋ก ๋ค์ด์ค๋ ์ ํธ๋ก, ์ฃผ๋ก ์ด์ ์ธต์ ์ถ๋ ฅ ์ ํธ์.
- ๊ฐ์ค์น(Weights): ๊ฐ ์
๋ ฅ ์ ํธ์ ๊ณฑํด์ง๋ ๊ฐ์ผ๋ก, ์ ๊ฒฝ๋ง ํ์ต์ ํตํด ์ต์ ํ๋จ.
- ํธํฅ(Bias): ๋ด๋ฐ์ ์ถ๋ ฅ์ ๋ํด์ง๋ ๊ฐ์ผ๋ก, ํ์ต์ ํตํด ์ต์ ํ๋จ.
- ์ถ๋ ฅ(Outputs): ํ์ฑํ ํจ์๋ฅผ ๊ฑฐ์ณ ๋์จ ๊ฒฐ๊ณผ ๊ฐ์ผ๋ก, ๋ค์ ๋ด๋ฐ์ผ๋ก ์ ๋ฌ๋จ.
- ์ธต(Layers): ์ ๊ฒฝ๋ง์ ์
๋ ฅ์ธต, ์๋์ธต, ์ถ๋ ฅ์ธต์ผ๋ก ๊ตฌ์ฑ๋จ.
- ์
๋ ฅ์ธต(Input Layer): ์ด๊ธฐ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ ์ธต์. ์
๋ ฅ ๋ฐ์ดํฐ๊ฐ ์ด ์ธต์ผ๋ก ๋ค์ด์ด.
- ์๋์ธต(Hidden Layers): ์
๋ ฅ์ธต๊ณผ ์ถ๋ ฅ์ธต ์ฌ์ด์ ์ธต์ผ๋ก, ์ฃผ์ ๊ณ์ฐ์ด ์ํ๋๋ ๊ณณ์. ์ฌ๋ฌ ๊ฐ์ ์๋์ธต์ด ์์ ์ ์์.
- ์ถ๋ ฅ์ธต(Output Layer): ์ต์ข
๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํ๋ ์ธต์. ๋คํธ์ํฌ์ ์์ธก ๊ฒฐ๊ณผ๊ฐ ์ด ์ธต์์ ๋์ด.

2. ์ ๊ฒฝ๋ง์ ์ข
๋ฅ
- ์๋ฐฉํฅ ์ ๊ฒฝ๋ง(Feedforward Neural Networks): ๊ฐ์ฅ ๊ฐ๋จํ ํํ๋ก, ๋
ธ๋ ๊ฐ์ ์ฐ๊ฒฐ์ด ์ฌ์ดํด์ ํ์ฑํ์ง ์์. ๋ฐ์ดํฐ๋ ์
๋ ฅ์์ ์ถ๋ ฅ์ผ๋ก ํ ๋ฐฉํฅ์ผ๋ก ์ด๋ํจ.
- ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN, Convolutional Neural Networks): ์ฃผ๋ก ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ฅผ ์ํด ์ฌ์ฉ๋๋ฉฐ, ํฉ์ฑ๊ณฑ ์ธต์ ํตํด ์
๋ ฅ์ ํํฐ๋งํ์ฌ ํน์ง์ ์ถ์ถํจ.
- ํฉ์ฑ๊ณฑ ์ธต(Convolutional Layer): ํํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์
๋ ฅ ์ด๋ฏธ์ง์ ์ง์ญ์ ํน์ง์ ์ถ์ถํจ.
- ํ๋ง ์ธต(Pooling Layer): ํฉ์ฑ๊ณฑ ์ธต์ ์ถ๋ ฅ์ ๋ค์ด์ํ๋งํ์ฌ ๊ณ์ฐ๋์ ์ค์ด๊ณ ํน์ง์ ์์น ๋ถ๋ณ์ฑ์ ์ ์งํจ.
- ์์ ์ฐ๊ฒฐ ์ธต(Fully Connected Layer): ์ต์ข
ํน์ง์ ์ฌ์ฉํ์ฌ ๋ถ๋ฅ๋ฅผ ์ํํจ.
- ์ํ ์ ๊ฒฝ๋ง(RNN, Recurrent Neural Networks): ์์ฐจ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ์ ์ ํฉํ๋ฉฐ, ์ฐ๊ฒฐ์ด ์ฌ์ดํด์ ํ์ฑํ์ฌ ์ ๋ณด๊ฐ ์ง์์ ์ผ๋ก ์ ์ง๋ ์ ์์.
- ์ํ ์ฐ๊ฒฐ(Recurrent Connections): ์ด์ ์๊ฐ ๋จ๊ณ์ ์ถ๋ ฅ์ ํ์ฌ ์
๋ ฅ์ ์ถ๊ฐํ์ฌ, ์๊ฐ ์ข
์์ฑ์ ๋ชจ๋ธ๋งํจ.
- LSTM(Long Short-Term Memory): ์ฅ๊ธฐ ์์กด์ฑ์ ํ์ตํ๊ธฐ ์ํด ๊ณ ์๋ RNN์ ๋ณํ์ผ๋ก, ๋ง๊ฐ ๊ฒ์ดํธ, ์
๋ ฅ ๊ฒ์ดํธ, ์ถ๋ ฅ ๊ฒ์ดํธ๋ฅผ ํตํด ์ ๋ณด์ ํ๋ฆ์ ์กฐ์ ํจ.
- GRU(Gated Recurrent Unit): LSTM์ ๊ฐ๋จํ ๋ฒ์ ์ผ๋ก, ๋ ๊ฐ์ ๊ฒ์ดํธ(์
๋ฐ์ดํธ ๊ฒ์ดํธ, ๋ฆฌ์
๊ฒ์ดํธ)๋ฅผ ํตํด ์ ๋ณด์ ํ๋ฆ์ ์กฐ์ ํจ.
Linear Classifier์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ 2:
๋คํธ์ํฌ์ ์ถ๋ ฅ์ ๋น์ ํ์ฑ์ ์ถ๊ฐํจ์ผ๋ก์จ, ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
3. ํ์ฑํ ํจ์ (Activation Functions)

-
Q: What happens if we build a neural network with no activation function?
- linear classifier ๋ก ๋๋จ ์ฆ ๋ฌธ์ ์ ๊ทน๋ณต์ ์ํด ํ์ฑํ ํจ์ ํ์
-
์ข
๋ฅ ๋ฐ ํํ

-
ReLU (Rectified Linear Unit, ๋ ๋ฃจ): ์
๋ ฅ์ด ์์์ผ ๊ฒฝ์ฐ ์
๋ ฅ์ ๊ทธ๋๋ก ์ถ๋ ฅํ๊ณ , ๊ทธ๋ ์ง ์์ผ๋ฉด 0์ ์ถ๋ ฅํ๋ ํจ์์.
- ์์:
f(x)=max(0,x)
- ์ฅ์ : ๊ณ์ฐ์ด ๊ฐ๋จํ๊ณ , ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ์ํํจ.
- ๋จ์ : ์์ ์
๋ ฅ์ ๋ํด ๋ชจ๋ ์ถ๋ ฅ์ด 0์ด ๋์ด, ์ฃฝ์ ReLU ๋ฌธ์ (dead ReLU problem)๊ฐ ๋ฐ์ํ ์ ์์.
-
Sigmoid (์๊ทธ๋ชจ์ด๋): ์ถ๋ ฅ์ด (0, 1) ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ฉฐ, ์ด์ง ๋ถ๋ฅ์ ์ฌ์ฉ๋จ.
- ์ฅ์ : ์ถ๋ ฅ์ด ํ๋ฅ ์ฒ๋ผ ํด์๋ ์ ์์.
- ๋จ์ : ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ (vanishing gradient problem)๊ฐ ๋ฐ์ํ ์ ์์.
-
tanh (ํ์ดํผ๋ณผ๋ฆญ ํ์ ํธ): ์๊ทธ๋ชจ์ด๋์ ์ ์ฌํ์ง๋ง ์ถ๋ ฅ ๊ฐ์ด -1์์ 1 ์ฌ์ด์.
- ์์:
f(x)=tanh(x)=

- ์ฅ์ : ์๊ทธ๋ชจ์ด๋๋ณด๋ค ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ํจ.
- ๋จ์ : ์ฌ์ ํ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์.
5. Space Warping
- ์ ๊ฒฝ๋ง์์ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ์ ํ์ ์ผ๋ก ๋ณํํ์ฌ ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ์ฝ๊ฒ ํด๊ฒฐํ ์ ์๋๋ก ํ๋ ์ค์ํ ๊ธฐ๋ฒ
- ์๋ ๊ณต๊ฐ์์ ๋น์ ํ์ ์ผ๋ก ๋ถ๋ฆฌ๋ ๋ฐ์ดํฐ๋ ์ ์ ํ ํน์ฑ ๋ณํ์ ํตํด ์ ํ์ ์ผ๋ก ๋ถ๋ฆฌ ๊ฐ๋ฅํ๊ฒ ๋จ.
- ์ ๊ฒฝ๋ง์ ์ญํ : ์ ๊ฒฝ๋ง์ ์๋์ธต์ ์ด๋ฌํ ํน์ฑ ๋ณํ์ ์ํํ๋ฉฐ, ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ณต์กํ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ๋จ์ํํจ.
- More hidden units = more capacity ์ด์ง๋ง ์ฌ์ด์ฆ๋ฅผ ์ค์ด๊ธฐ ๋ณด๋ค๋ L2 ์ ๊ทํ๋ฅผ ์งํํ๊ธฐ
- ReLU์ ํ์ฉ: ReLU์ ๊ฐ์ ํ์ฑํ ํจ์๋ ๋น์ ํ์ฑ์ ๋์
ํ์ฌ ์ ๊ฒฝ๋ง์ด ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๊ณ ๋ถ๋ฅํ ์ ์๋๋ก ํจ.

6. Universal Approximation ( ๋ณดํธ์ ๊ทผ์ฌ )
-
Universal Approximation ์ ๋ฆฌ๋ ์ ๊ฒฝ๋ง์ ๊ฐ๋ ฅํ ํํ ๋ฅ๋ ฅ์ ๋ํ๋.
-
์ ๊ฒฝ๋ง์ ๋ณต์กํ ๋น์ ํ ํจ์๋ ๊ทผ์ฌํ ์ ์์.
-
๊ทธ๋ฌ๋ ์ค์ ๋ก ๋คํธ์ํฌ๊ฐ '๋ฒํ'์ ๊ฐ์ ํน์ ๊ตฌ์กฐ๋ฅผ ํ์ตํ๋ ๊ฒ์ ์๋๋ฉฐ, ๋งค๋๋ฌ์ด ๊ทผ์ฌ๋ฅผ ํตํด ๊ธฐ๋ฅ์ ๊ตฌํํจ.
7. Nonconvex Optimization
-
์ ๊ฒฝ๋ง์์ ๋น์ปจ๋ฒก์ค ์ต์ ํ์ ํ์์ฑ:
- ์์ค ํจ์์ ๊ทธ๋ํ๊ฐ ์ฌ๋ฌ ๊ฐ์ ์ง์ญ ์ต์๊ฐ(local minima)๊ณผ ๋ณต์กํ ํ๋ฉด์ ๊ฐ์ง ์ ์์์ ์๋ฏธ
- ์์ค ํจ์๊ฐ ๋จ์ํ ๋ณผ๋ก(convex) ํจ์์ฒ๋ผ ํ๋์ ์ ์ญ ์ต์๊ฐ(global minimum)๋ง ๊ฐ์ง๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ์ต์ ํ ์ง์ ์ด ์กด์ฌํ ์ ์์
-
์๋ ด์ ๋ํ ๋ณด์ฅ ์์ (Few or no guarantees about convergence):
- ์๊ณ ๋ฆฌ์ฆ์ด ํ๋์ ์ง์ญ ์ต์ ํด(local optimum) ๋๋ ์์ฅ์ (saddle point)์ ๋ฉ์ถ ์ ์์
-
๊ฒฝํ์ ์ผ๋ก ์๋ํจ (Empirically, it seems to work anyway):
- ๋ค์ํ ์ต์ ํ ๊ธฐ๋ฒ๊ณผ ๊ธฐ์ ์ ํตํด ์ํ๋ ์ฑ๋ฅ์ ๋๋ฌํ ์ ์์
์ญ์ ํ(Backpropagation)
1. ์ญ์ ํ
- ์ญ์ ํ(Backpropagation): ์ ๊ฒฝ๋ง ํ์ต์์ ๊ฐ์ฅ ์ค์ํ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋๋ก, ์ถ๋ ฅ์์ ์
๋ ฅ ๋ฐฉํฅ์ผ๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ์ฌ ๊ฐ์ค์น๋ฅผ ์
๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ์. ์ด๋ฅผ ํตํด ์์ค ํจ์์ ๊ฐ์ ์ต์ํํจ.
2. ์ญ์ ํ์ ์๋ฆฌ
- ์๋ฐฉํฅ ์ ํ(Forward Propagation): ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ ๊ฐ ์ธต์ ํตํด ์ถ๋ ฅ์ ๊ณ์ฐํ๋ ๊ณผ์ ์.
- ์ญ๋ฐฉํฅ ์ ํ(Backward Propagation): ์ถ๋ ฅ์์ ์
๋ ฅ ๋ฐฉํฅ์ผ๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ์ฌ ๊ฐ์ค์น๋ฅผ ์
๋ฐ์ดํธํจ.
3. ์ญ์ ํ์ ๊ณ์ฐ ๊ณผ์
- ์๋ฐฉํฅ ๊ณ์ฐ: ์
๋ ฅ x๋ก๋ถํฐ ์ถ๋ ฅ์ ๊ณ์ฐํจ โ Compute outputs
- ์์ค ํจ์ ๊ณ์ฐ: ์์ธก ๊ฐ๊ณผ ์ค์ ๊ฐ ๊ฐ์ ์ค์ฐจ๋ฅผ ๊ณ์ฐํจ
- ์ญ๋ฐฉํฅ ๊ณ์ฐ: ์ถ๋ ฅ์์ ์
๋ ฅ ๋ฐฉํฅ์ผ๋ก ๊ฐ ๊ฐ์ค์น์ ๋ํ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํจ.
4. ์ฒด์ธ ๋ฃฐ๊ณผ ์์คํจ์์ ๊ธฐ์ธ๊ธฐ ๊ณ์ฐ
-
์ฒด์ธ ๋ฃฐ(Chain Rule): ์ญ์ ํ์ ํต์ฌ์ ์ฒด์ธ ๋ฃฐ์ ์ฌ์ฉํ์ฌ ๊ฐ ๋ณ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์.
- ๋ค์ด์คํธ๋ฆผ ๊ทธ๋๋์ธํธ = ๋ก์ปฌ ๊ทธ๋๋์ธํธ X ์
์คํธ๋ฆผ ๊ทธ๋๋์ธํธ(ํ์ฌ ๋
ธ๋๋ก ๋ค์ด์ค๋ ๊ทธ๋๋์ธํธ ๊ฐ)
- [Downstream] = [Local] * [Upstream]
- ์์:


์ : ์๊ทธ๋ชจ์ด๋ ์ญ์ ํ
-
ํน์ ์ฐ์ฐ(์: ์๊ทธ๋ชจ์ด๋ ํจ์)์์ ๊ธฐ์ธ๊ธฐ ๊ณ์ฐํ๋ ๊ณผ์
-
์ ํ(backpropagation) ๊ณผ์ ์ ํตํด ์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ(gradient)๋ฅผ ๊ณ์ฐํ๋ ์์

5. ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ ์ญ์ ํ (Backpropagation with Vectors)
- ๋ฒกํฐ ๋ฏธ๋ถ์ ๊ฐ๋
: ๋ฒกํฐ ๋ฏธ๋ถ์ ๊ฐ ์
๋ ฅ ์์์ ์์ ๋ณํ๊ฐ ์ถ๋ ฅ ๋ฒกํฐ์ ๊ฐ ์์์ ๋ฏธ์น๋ ์ํฅ์ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๊ฒฐ๊ณผ๋ ์์ฝ๋น์ ํ๋ ฌ๋ก ๋ํ๋จ.
- ์์ฝ๋น์ ํ๋ ฌ์ ์ถ๋ ฅ ๋ฒกํฐ์ ๊ฐ ์์์ ๋ํ ์
๋ ฅ ๋ฒกํฐ์ ๋ฏธ๋ถ์ ํฌํจํ๋ฉฐ, ์ด๋ ์ญ์ ํ ๊ณผ์ ์์ ์ค์ํ ์ญํ ์ ํจ.
- ์ญ์ ํ์ ๊ตฌ์ฒด์ ์ธ ์: ํจ์ f(x)=maxโก(0,x)์ ๊ฒฝ์ฐ, ์
๋ ฅ ๋ฒกํฐ x๊ฐ ์ฃผ์ด์ง๋ฉด, ์ถ๋ ฅ ๋ฒกํฐ y์ ์ด์ ๋ํ ๊ทธ๋๋์ธํธ โL/โy๊ฐ ๊ณ์ฐ๋จ.
- ์ด๋ ์์ฝ๋น์ ํ๋ ฌ๊ณผ ๊ทธ๋๋์ธํธ์ ๊ณฑ์ ํตํด ์
๋ ฅ ๋ฒกํฐ์ ๋ํ ๊ทธ๋๋์ธํธ โL/โx๋ฅผ ์ป์ ์ ์์.
5-1. ์์ฝ๋น์ ํ๋ ฌ(Jacobian matrix):
- ์ญ์ ํ๋ ์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ์ฌ, ์ด๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์
๋ฐ์ดํธํ๋ ๊ณผ์
- ์ด๋, ๊ฐ ๊ณ์ธต์ ์ถ๋ ฅ์ด ๋ค์ ๊ณ์ธต์ ์
๋ ฅ์ด ๋๋ฏ๋ก, ๊ฐ ๊ณ์ธต์ ๋ฏธ๋ถ์ ์ฒด์ธ ๋ฃฐ์ ํตํด ์ฐ๊ฒฐํด์ผ ํจ

- ์์ฝ๋น์ ํ๋ ฌ(โx/โy)์ ๋ํ ๋ํ
์ผํ ์ค๋ช
:
- ์ญ์ ํ ๊ณผ์ ์ ์ฒด์ธ ๋ฃฐ์ ํตํด ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ํํ๋ ๋ฐ ํ์์ ์ธ ์์
- ReLU ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ ํ, ์ญ์ ํ ๊ณผ์ ์ ํตํด ์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐ
- ReLU ํจ์์ ์์ฝ๋น์ ํ๋ ฌ์ ๋๊ฐ์ ์ 0 ๋๋ 1์ ๊ฐ์ง๋ฉฐ, ๋น๋๊ฐ์ ์ ๋ชจ๋ 0
- ์ด ํ๋ ฌ์ ์
๋ ฅ x์ ๋ณํ๊ฐ ์ถ๋ ฅ y( ์ถ๋ ฅ ๋ฒกํฐ์ ๊ฐ ์ฑ๋ถ)์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ๋ํ๋
- ReLU์ ํน์ฑ์, ์์์๋ ์
๋ ฅ๊ฐ์ ๋ํด์๋ ๊ธฐ์ธ๊ธฐ 1์ ๊ฐ์ง๋ฉฐ, ์์์๋ ์
๋ ฅ๊ฐ์ ๋ํด์๋ ๊ธฐ์ธ๊ธฐ 0์ ๊ฐ์ง. ์ฌ๊ธฐ์๋ ์ฒซ ๋ฒ์งธ์ ์ธ ๋ฒ์งธ ์์๋ง 1์ด๊ณ , ๋๋จธ์ง๋ 0
- Downstream Gradient (โx/โL):
- ์
๋ ฅ x์ ๋ํ ์์ค ํจ์ L์ ๊ธฐ์ธ๊ธฐ
- ์ด๋ Upstream Gradient์ ์์ฝ๋น์ ํ๋ ฌ์ ๊ณฑ์ผ๋ก ๊ณ์ฐ
- ์ต์ข
์ ์ผ๋ก, โx / โL๋ [4, 0, 5, 0]์ด ๋จ
- ์ด๋ ์
๋ ฅ x์ ๊ฐ ์์์ ๋ํด ์์ค L์ ๋ณํ๋์ ๋ํ๋ด๋ฉฐ, ์ด ๊ฐ์ ์ด์ฉํด ์ ๊ฒฝ๋ง์ ๊ฐ์ค์น๋ฅผ ์
๋ฐ์ดํธ
- ์ด ๊ณผ์ ์ ํตํด ์ ๊ฒฝ๋ง์ด ํ์ตํ๋ฉฐ, ์ถ๋ ฅ๊ณผ ์ค์ ๊ฐ ๊ฐ์ ์ค์ฐจ๋ฅผ ์ต์ํํ๊ธฐ ์ํด ๊ฐ์ค์น๋ฅผ ์กฐ์
5-2. ํ๋ ฌ ๊ณฑ์
์ ์ฌ์ฉํ ์ (Matrix Multiplication Example)

-
dy/dx2,3๋ ๊ฐ์ค์น ํ๋ ฌ w์ ์ธ ๋ฒ์งธ ํ์ ๊ฐ์ ์๋ฏธ
-
ํ๋ ฌ ๊ณฑ์
์ ์ญ์ ํ
- ๊ทธ๋๋์ธํธ ๊ณ์ฐ: ํ๋ ฌ ๊ณฑ์
์ ๊ฒฝ์ฐ, ์์ค ํจ์์ ๋ํ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ ๋ ๊ฐ ์
๋ ฅ๊ณผ ์ถ๋ ฅ ์์๊ฐ ๋ฏธ์น๋ ์ํฅ์ ๋ฐ์์
๋ ฅ ํ๋ ฌ X์ ๋ํ ์์ค ํจ์ L์ ๊ทธ๋๋์ธํธ ๊ณ์ฐ
- 1) ์ฃผ์ด์ง ์
๋ ฅ ํ๋ ฌ x์ ๊ฐ์ค์น ํ๋ ฌ w๋ฅผ ์ฌ์ฉํ์ฌ ์ถ๋ ฅ ํ๋ ฌ y ๊ณ์ฐ
- 2) ์์ค ํจ์์ ๊ทธ๋๋์ธํธ โL/โy์ ๋ํด ์
๋ ฅ ํ๋ ฌ x์ ๊ฐ์ค์น ํ๋ ฌ w์ ๋ํ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๋ ๊ณผ์ ์ผ๋ก ๊ตฌ์ฑ
-
N: ํ๋ ฌ์ ํ, D: ํ๋ ฌ์ ์ด
- ๊ฐ ์
๋ ฅ์ด ์์ค์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง

- ๊ฐ์ค์น ํ๋ ฌ w์ ๋ํ ์์ค ํจ์ L์ ๊ทธ๋๋์ธํธ ๊ณ์ฐ
- ๊ฐ์ค์น๊ฐ ์์ค์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง

5-3 .์ญ์ ํ์ ๋ ๋ค๋ฅธ ๊ด์ (Backpropagation: Another View)
- ์ฐ์ ๋ฒ์น: ์ญ์ ํ์ ํต์ฌ์ ์ฐ์ ๋ฒ์น์ ํ์ฉํ์ฌ, ์ถ๋ ฅ์์๋ถํฐ ์
๋ ฅ์ผ๋ก ๊ทธ๋๋์ธํธ๋ฅผ ์ ํํ๋ ๊ณผ์ ์
- ์ด๋ ์ปดํจํ
๊ทธ๋ํ์์ ๊ฐ ๋
ธ๋๊ฐ ๋ก์ปฌ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฅ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณฑํด ํ๋ฅ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์์ผ๋ก ๊ตฌํ๋จ.

5-4. ์๋ ๋ฏธ๋ถ (Automatic Differentiation)
- Reverse-Mode: ์ญ์ ํ๋ ์ข
์ข
reverse-mode ์๋ ๋ฏธ๋ถ์ผ๋ก ๋ถ๋ฆฌ๋ฉฐ, ์ด๋ ์ค์นผ๋ผ ์ถ๋ ฅ์ ๋ํ ๋ฒกํฐ ์
๋ ฅ์ ๊ทธ๋๋์ธํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ณ์ฐํจ
- ์ด๋ ์ ๊ฒฝ๋ง ํ๋ จ์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋จ.
- Forward-Mode: ์ ๋ฐฉํฅ ์๋ ๋ฏธ๋ถ์ ๋ฒกํฐ ์
๋ ฅ์ ๋ํ ์ค์นผ๋ผ ์ถ๋ ฅ์ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๋ ๋ฐ ์ ์ฉํจ.
- ์ด๋ ํ๋ผ๋ฏธํฐ๊ฐ ์ ๊ณ ์
๋ ฅ์ด ๋ง์ ์ํฉ์์ ์ ๋ฆฌํจ.

[ ์ง๋ฌธ ]
- Reverse-mode ์ฆ ์ญ์ ํ๋ฅผ ํตํด ์์คํจ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ์
๋ฐ์ดํธ ํ๋ค๋๊ฒ์ ์ดํด๊ฐ ๋๋๋ฐ, Forward-Mode๋ฅผ ํตํด ์ค์นผ๋ผ ์
๋ ฅ์ ๋ํ ๋ฒกํฐ ์ถ๋ ฅ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ ํ์๊ฐ ์๋๊ฐ ? ์ด์ ๋ ?
- ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ด ์์ฝ๋น์ ํ๋ ฌ์ ๋ช
์์ ์ผ๋ก ๊ณ์ฐํ๋๊ฒ๊ณผ ๋ก์ปฌ ๊ทธ๋๋์ธํธ์ ์
์คํธ๋ฆผ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณฑํ์ฌ ๋ค์ด์คํธ๋ฆผ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์ 2๊ฐ์ง๊ฐ ์๋๊ฑด๊ฑฐ?
- ์ธํ๊ณผ ์์ํ์ด ๋ฒกํฐ์ธ ๊ฒฝ์ฐ : ์์ฝ๋น์
- ์ธํ๊ณผ ์์ํ์ด ๋งคํธ๋ฆญ์ค์ธ ๊ฒฝ์ฐ : ์
์คํธ๋ฆผ ์ ๋ณด๋ ์๋๋ฐ ๋ค์ด์คํธ๋ฆผ ์ด๋ป๊ฒ ์ธ๊บผ๋?? ๊ฐ ์ค์ํ ๋
ผ์
- ์ค์นผ๋ผ์์๋ ๋ก์ปฌ ๊ทธ๋๋์ธํธ๋ฅผ ์๊ธฐ ๋๋ฌธ์ ๋ค์ด์คํธ๋ฆผ ๊ทธ๋๋์ธ๋ ๊ณ์ฐ ๊ฐ๋ฅ. (dL์ ๋ก์ปฌ ๊ทธ๋๋์ธํธ. ํ๋ ฌ์ ๊ฐ์์์ ์์๋ก ์ฃผ์ด์ง).
- ๋ก์ปฌ ๊ทธ๋๋์ธํธ๋ ํ๋ ฌ์์๋ ๋ฒกํฐ์ ํ๋์ ๊ฐ์ ๋ํ ์ ๋ณด์
- ํ๋ ฌ ํต์งธ๋ ์๋์ง๋ง ๋ฒกํฐ์ ํ์๋ฆฌ์๋ ๊ฐ ๊ตฌํ ์ ์์. ์ฆ ํด๋ฆฌ์คํฑํ๊ฒ ๊ตฌํ๋ฉด => ๊ทธ๋ฌ๋ฉด ์ฒด์ธ๋ฃฐ์ ์ด์ฉํด์ ํ๋ ฌ๊ณฑ์ผ๋ก ๊ตฌํ ์ ์๊ฒ ๋ค๋ ์์ด๋์ด
- ์ด ๋๊ฐ ํ๋ ฌ ๊ณฑ์ด ๋ก์ปฌ ๊ทธ๋๋์ธํธ๊ฐ ๋ ์ ์์
์ฐธ๊ณ ๊ฐ์ :