ํด๋น ๊ธ์ FastCampus - '[skill-up] ์ฒ์๋ถํฐ ์์ํ๋ ๋ฅ๋ฌ๋ ์ ์น์ ๊ฐ์๋ฅผ ๋ฃ๊ณ ,
์ถ๊ฐ ํ์ตํ ๋ด์ฉ์ ๋ง๋ถ์ฌ ์์ฑํ์์ต๋๋ค.
1. Linear ๋ชจ๋ธ์ ํ๊ณ
- ์ธ์์๋ ์ ํ ๊ด๊ณ๋ก๋ ํด์ํ ์ ์๋ ๋น์ ํ ๋ฐ์ดํฐ๋ค์ด ๋์ณ๋จ
e.g. ์ด๋ฏธ์ง, ํ
์คํธ, ์์ฑ, ...
- ์ด๋ฌํ ๋ฐ์ดํฐ๋ค์ ํ์ตํ๊ธฐ ์ํด์๋ Linear Regression model์ด๋ Logistic Regression model๊ณผ ๊ฐ์ shallow model๋ก๋ ๋ถ์กฑํจ
- ๋ฌผ๋ก deep model์ด๋ผ๊ณ ํด๋ layer๋ง ๋ ๊น์ด์ง ๋ฟ์ด์ง gradient descent, Loss function ๋ฑ์ ๊ฐ๋
์ ๊ทธ๋๋ก ์ฌ์ฉ๋จ

- ๊ณ ์ฐจ์์ ๋ฐ์ดํฐ๋ค์ ploting๋ ์ด๋ ค์
2. Linear + Linear๋ก๋ ์ ๋ ๊น?
h=xโ
W1โ+b1โy=hโ
W2โ+b2โ=(xโ
W1โ+b1โ)โ
W2โ+b2โ=xโ
W1โโ
W2โ+b1โโ
W2โ+b2โ
3. Adding Non-linearity
- ๋ง์ฝ layer ์ฌ์ด์ ๋น์ ํ ํ์ฑ ํจ์๋ฅผ ๋ฃ์ด ๊น๊ฒ ์๋๋ค๋ฉด?
(๊ผญ sigmoid, tanh์ผ ํ์๋ ์์)
- ํ์ฑํจ์๋ง ๋ค์ด๊ฐ๋ฉด ๋น์ ํ ๋ชจ๋ธ์ ๊ทผ์ฌํ ์ ์์
- ์ด๋ฏธ ์ํ์ ์ผ๋ก ์ฆ๋ช
๋ ๊ฒฐ๊ณผ (๋ณดํธ ๊ทผ์ฌ ์ ๋ฆฌ, UAT)
- DNN์ non-convexํ loss surface๋ฅผ ๊ฐ์ง
- non-convex: ํ๋ฉด์ ๋ด์ฐ๋ฆฌ(peak), ๊ณจ์ง๊ธฐ(valley), ์์ฅ์ (saddle point) ๋ฑ์ด ๋ง์ด ์กด์ฌํ๋ ๊ณก๋ฉด

๋ณดํธ ๊ทผ์ฌ ์ ๋ฆฌ (UAT, Universal Approximation Theorem)
"์ถฉ๋ถํ ์์ ๋ด๋ฐ๊ณผ ์ ์ ํ ๋น์ ํ ํ์ฑํจ์๊ฐ ์๋ค๋ฉด, ํ๋์ ์๋์ธต๋ง์ผ๋ก๋ ์ด๋ค ์ฐ์์ ์ธ ํจ์๋ ์ํ๋ ์ ํ๋๋ก ๊ทผ์ฌํ ์ ์๋ค."
- ์ ํ ํจ์๋ง ์ฌ๋ฌ ๊ฐ ์์ผ๋ฉด ๊ฒฐ๊ตญ ์ ์ฒด ๋ชจ๋ธ๋ ์ ํ์ด ๋จ
- ํ์ง๋ง ์ค๊ฐ์ ๋น์ ํ ํจ์ (์: ReLU, sigmoid)๋ฅผ ๋ฃ์ผ๋ฉด ๋ชจ๋ธ์ ๋น์ ํ ํจ์๋ ํํํ ์ ์๊ฒ ๋จ
- ๋น์ ํ ํ์ฑํจ์๋ฅผ ๊ฐ์ง ์ถฉ๋ถํ ํฐ ์ ๊ฒฝ๋ง์ ์ด๋ค ํจ์๋ ๊ทผ์ฌํ ์ ์๋ค๋ ์ํ์ ๋ณด์ฅ
- ์์
์์์ ์ฐ์ ํจ์f:RnโR ์
์์์ ์์ ์ค์ฐจ ฮต>0 ์ ๋ํด,
๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ์ ํจ์f^โ(x) ๊ฐ ์กด์ฌํ๋ค๋ฉด:
f^โ(x)=โi=1Nโฮฑiโโ
ฯ(wiโคโx+biโ)
์ด๋,
โฅf(x)โf^โ(x)โฅ<ฮตโxโK
K๋ compactํ ์
๋ ฅ ๊ณต๊ฐ (์ฆ, ์ ๊ณ ํ์งํฉ)์ด๋ค.
xโRn : ์
๋ ฅ ๋ฒกํฐ
ฯ(โ
) : ๋น์ ํ ํ์ฑ ํจ์ (์: sigmoid, tanh)
ฮฑiโโR : ์ถ๋ ฅ ๊ฐ์ค์น
wiโโRn : ์
๋ ฅ ๊ฐ์ค์น
biโโR : ๋ฐ์ด์ด์ค
NโN : ์๋ ๋ด๋ฐ์ ์ (์ถฉ๋ถํ ํฌ๋ฉด ๊ฐ๋ฅ)
f^โ(x) : ์ ๊ฒฝ๋ง์ด ๊ทผ์ฌํ ํจ์
4. Network Capacity
- ๊น์ด(depth)์ ๋๋น(width)๋ฅผ ๋๊ฒ ํ ์๋ก ์ ๊ฒฝ๋ง์ ํํ๋ ฅ์ ์ข์์ง๋ค.
โ ๋ณต์กํ ํํ์ ํจ์๋ฅผ ํ์ตํ ์ ์๋ ๋ฅ๋ ฅ์ด ์๊น
- ์ผ๋จ ๊น๊ณ ๋๊ฒ, learing rate๋ฅผ ์๊ฒ ํ๋ฉด ๋ญ๋ผ๋ ๋ง๋ค์ด์ง๊ธด ํจ
