Linear Regression๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํ 2๊ฐ์ง ๋ฐฉ๋ฒ
1. ์์ฐจ ์ ๊ณฑํฉ(RSS: Residual Sum of Squares)์ ์ต์ํํ๋ ๊ฐ์ค์น์ ๋ฐ์ด์ด์ค ๊ตฌํจ
2. ์์ฐจ ์ ๊ณฑํฉ์ ๊ทธ๋ ๋์ธํธ(gradient) ๋ฒกํฐ๊ฐ 0์ด ๋๋๋ก ํจ (Gradient descent)
์ด ๊ธ์์๋ ๋ฐฉ๋ฒ 2๋ฅผ ์์๊ฐ๋ณด๋๋ก ํ์.
ํ๋ง๋๋ก..
์ฐ๋ฆฌ์ ๋ชจ๋ธ(์ฌ๊ธฐ์๋ 1์ฐจํจ์ - ์ง์ )์ด ์ ์ ํ ๊ธฐ์ธ๊ธฐ ๋ฐ bias๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ!
๊ทธ๋ผ ์กฐ๊ธ์ฉ ์ค์ฐจ๋ฅผ ์ค์ฌ๋๋ ๋ฐฉํฅ์ผ๋ก, ์ต์ ์ ๊ธฐ์ธ๊ธฐ ๋ฐ bias๊ฐ์ ์ฐพ์!
์ฐ๋ฆฌ๊ฐ part05์์ ์๊ฐํ(๊ฐ์ค) ์ ํ ํจ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ์์ ๋ฌดํ๋๋ก ์ฆ๊ฐํ๊ฑฐ๋, ๊ธฐ์ธ๊ธฐ๊ฐ ์์ ๋ฌดํ๋๋ก ๊ฐ์ํ๋ค๊ณ ์๊ฐํด๋ณด์.
๊ธฐ์ธ๊ธฐ๊ฐ ์ฆ๊ฐํจ์๋ฐ๋ผ ์ค์ฐจ๋ ์ด๋ป๊ฒ ๋ ๊น?
๋น์ฐํ ์ค์ฐจ๋ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ ๊ฒ์ด๋ค.
์๋ํ๋ฉด data๋ค๊ณผ ์ง์ ์ ๊ฑฐ๋ฆฌ๊ฐ ์ค์ง์ ์ผ๋ก ์์ฒญ๋๊ฒ ๋ฉ์ด์ ธ๋ฒ๋ฆฌ๋ ์ํฉ์ด ์ฐ์ถ๋๊ธฐ์ ์ค์ฐจ๊ฐ ์ฆ๊ฐํ๋ ๊ฒ์ ๋น์ฐํ๋ค.
์ด๋ฌํ ํน์ง์ ๋น์ฐํ๊ฒ ํ๊ท ์ ๊ณฑ์ค์ฐจ์์ ์ ๋๋ ํน์ง์ด๋ฏ๋ก, ์ด๋ฅผ ์๊ฐ์ ์ผ๋ก ํ๊ท ์ ๊ณฑ์ค์ฐจ์ ๊ทธ๋ํ๋ฅผ ๋ํ๋์๋๋ ์ด๋ฌํ ํน์ง์ด ๋์ผํ๊ฒ ๋ํ๋๋ค.
ํ๊ท ์ ๊ณฑ์ค์ฐจ๋ 2์ฐจํจ์์ ๊ทธ๋ํ ์ด๋ฏ๋ก ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋๋ค.
w(๊ธฐ์ธ๊ธฐ) ๊ฐ์ด ์ฆ๊ฐํ๊ฑฐ๋ ๊ฐ์ํ ์๋ก cost(์ค์ฐจ)๊ฐ ์ฆ๊ฐํ๋ ๋ชจ์ต
ํ๊ท ์ ๊ณฑ์ค์ฐจ๋ฅผ ํตํด์ ๋์จ 2์ฐจํจ์ ๊ทธ๋ํ์์ X์ถ์ Linear ๋ชจ๋ธ์ ๊ธฐ์ธ๊ธฐ๋ฅผ y์ถ์ ์ค์ฐจ(cost)๋ฅผ ๋ํ๋ธ๋ค.
์ด๋, ์ฐ๋ฆฌ์ ๋ชฉํ๋ ์ฆ y์ถ(cost) ๊ฐ์ด ๊ฐ์ฅ ์์ ์ง์ ์ด ๋๋๋กํ๋ ๋ชจ๋ธ์ ์ต์ ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค.
์์๋๋ก ๊ณผ์ ์ ๋ฐ๋ผ๊ฐ๋ณด๋ฉฐ ์ดํดํด๋ณด์.
ํ๊ท ์ ๊ณฑ์ค์ฐจ ๊ทธ๋ํ์ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ธ ์ง์ ์ด ๋ฐ๋ก, cost์ ๊ฐ์ด 0์ด ๋๋ ๊ฐ์ด๋ค.
๊ทธ๋ํ๋ฅผ ๋ฏธ๋ถํ๋ฉด ๊ธฐ์ธ๊ธฐ๊ฐ ๋์จ๋ค!
- Cost Function ์ weight๋ฅผ ๊ธฐ์ค์ผ๋ก ํธ๋ฏธ๋ถํ๋ค๋ ์.
์ด๋ฅผ ์ด์ฉํด์ w๊ฐ์ ์ ๋ฐ์ดํธ ํด์ค๋ค!
w์์ ๊ธฐ์ธ๊ธฐ xlr
๊ฐ ๋งํผ์ ๋นผ์ฃผ๋ฉด, ์ค์ฐจ๊ฐ ๋ฎ์์ง๋ ๋ฐฉํฅ์ผ๋ก w๊ฐ์ ์์ง์ด๊ฒ ํ ์ ์๋ค! ๋!
lr
์ ๊ดํ ์ค๋ช ์ ๋ฐ๋ก ์๋ ๋์จ๋ค.
- ์ฐธ๊ณ ๋ก ์์ ๊ธฐ์ธ๊ธฐ, ์์ ๊ธฐ์ธ๊ธฐ ์๊ด์์ด ๋นผ๋ฉด ๋๋ค. ๊ทธ ์ด์ ๋ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ 0์ผ๋ก ์๋ ด์ํค๊ธฐ ์ํด์๋ ๊ธฐ์ธ๊ธฐ ๊ฐ์ + ํด์ผํ๋๋ฐ ์ด๋ ๊ฒฐ๊ตญ ๊ธฐ์ธ๊ธฐ ๊ฐ์ ๋นผ๋ฉด -(-) = ์ด๋ฏ๋ก ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ํ๋ ๊ฒ์ด๋ฏ๋ก ๊ธฐ์ธ๊ธฐ ๊ฐ์ + ํ๋ ๊ฒฐ๊ณผ์ ๋์ผํ๋ค.
์ด ๋, ์ค์ํ ๊ฒ์ด learning rate(ํ์ต๋ฅ )์ด๋ค. (lr
๋ก ํ๊ธฐ)
์ lr
๊ฐ ์ค์ํ๊ฐ?
๊ธฐ์ธ๊ธฐ๋ ๋ก ํํ๋๋๋ฐ, ์ฌ์ค์ cost๊ฐ ๋งค์ฐ ํฌ๊ธฐ์ ๊ธฐ์ธ๊ธฐ์ ๊ฐ์ ๋งค์ฐ ํฌ๊ฒ ๋์ค๊ฒ ๋ ๊ฒ์ด๋ค.
ex.) (4,100)๋ง ๋ณด๋๋ผ๋ ๊ฑฐ์ 25์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ์ง.
์ด๋ฅผ w๊ฐ์์ ๊ทธ๋ฅ ๋ฐ๋ก ๋บ๋ค๋ฉด ๊ฐ์ด ๋๋ฌด ์ปค ๊ธฐ์ธ๊ธฐ๊ฐ 0์ ์๋ ดํ๊ธด ์ปค๋ ๋ฐ์ฐํ ๊ฐ๋ฅ์ฑ์ด ๋ง๋ฌดํ๋ค.
๋ฐ๋ผ์ ์ ์ ํ lr
๊ฐ(0.001 ๋ฑ..)์ ์ง์ ํจ์ผ๋ก์จ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด๋๋ ์ง์ ์ผ๋ก ์๋ ดํ ์ ์๋๋ก ํ๋ค.
- ๋จ, ์๋ชป๋ ํ์ต๋ฅ ์ ์ง์ ํ๊ฒ๋๋ฉด ์ค๋ฅธ์ชฝ๊ณผ ๊ฐ์ด ์ค์ฐจ๊ฐ ์ค์ด๋๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋๊ฒ์ด ์๋, ๋ฐ์ฐํ๊ฒ ๋๋ค.
์ ์์์์๋ ์ฆ, bias(y ์ ํธ)์ด ์๋ ์ํ๋ก ๊ฐ์ ์
๋ฐ์ดํธ ํ๋ ๋ฐฉ๋ฒ์ ์ค๋ช
ํ๋ค.
ํ์ง๋ง ์ต์ ์ ์ ์ ํํํ๊ธฐ ์ํด์๋ ์ด๋์ ๋์ ํํ์ด๋์ด ํ์ํ ๊ฒ์ด๊ณ , ์ค์ ๋ก๋ ์ ๊ฐ์ด bias(y ์ ํธ)์ด ํฌํจ๋์ด ํจ๊ป ์์ ๊ฒ์ด๋ค.
๋ฐ๋ผ์ bias์ ๊ฐฑ์ (update)๋ ์ด๋ป๊ฒ ์ด๋ฃจ์ด์ง๋์ง ์์๋ณด์
w์ ์๋ฒฝํ๊ฒ ๋๊ฐ๋ค! ๋ฐ๋ผ์ w๋ง ์๋ฉด b๋ ๋๊ฐ๋ค!
์ ๊ฐฑ์ ๊ณผ์ ์ ์์ธํ ์ดํด๋ณด์.
lr
์ ๊ณฑํด ๋นผ์ค์ผ๋ก ์จ, ๋ฅผ ์
๋ฐ์ดํธํ๋ค.๊ทธ๋ ๋ค. ํธ๋ฏธ๋ถ์ ์ฌ์ฉ์ด ์ฌ๊ธฐ์ ๋์จ๋ค.
๋ฐ๋ผ์ b๋ฅผ ์ ๋ฐ์ดํธ ํ๊ธฐ ์ํด์๋, cost function์์ ์ ๋ํด ๋ฏธ๋ถํ๋ ๊ฒ์ด ์๋ b์๋ํด์ ๋ฏธ๋ถํ ๊ฐ์ผ๋ก ์ ๋ฐ์ดํธ ํ๋ฉด ๋๋ค.
- , ์ ์ ๋ฐ์ดํธ ๊ณผ์ ์ ๋ฆฌ
= - (โ ) ๋นผ๊ฒ๋๋ ํด๋น ๊ฐ์ b์ ๋ํด cost Function์ ํธ๋ฏธ๋ถํ ๊ฒฐ๊ณผ์ด๋ค.