๐จโ๐ซ ๋ณธ ๋ฆฌ๋ทฐ๋ cs231n-2017 ๊ฐ์๋ฅผ ๋ฐํ์ผ๋ก ์งํํ์ต๋๋ค.
๐ ์ด๋ฒ ์๊ฐ์๋ ๊ฐ์ ์ ๋ชฉ๊ณผ ๊ฐ์ด Loss Functions, Optimization ๋ฐฉ๋ฒ์ ๋ํด ์๊ฐํฉ๋๋ค.
๐ Loss Function์ train data score์ ๋ํ ๋ถ๋ง์กฑ์ ์ ๋ํํ ๊ฒ์ ๋๋ค. ๊ฐ๋จํ๊ฒ ์๋ ์ ๋ต๊ณผ ์์ธกํ ์ ๋ต์ ์ฐจ์ด๋ฅผ ์์นํ ์ํจ๊ฒ์ ๋๋ค.
๐ Optimization์ด๋ ํจ๊ณผ์ ์ผ๋ก Loss Function์ ์ต์ํ์ํค๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฆ, ์ค๋ฅ๋ฅผ ์ต์ํ ํ๋ค๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค.
๐ loss function์ ํ์ฌ ์ฌ์ฉํ๋ classifier๊ฐ ์ผ๋ง๋ ์ข์ classifier์ธ์ง ๋งํด์ค๋๋ค. loss๋ผ๋ ์ด๋ฆ๊ณผ ๊ฐ์ด loss๋ฅผ ์ต์ํ๋ ๊ฒ์ด ์ฐ๋ฆฌ์ ๋ชฉํ์ด์ง๋ง, train loss๊ฐ ์๋ test loss๋ฅผ ์ต์ํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ์งํํด์ผํฉ๋๋ค.
** ์์ ์ฌ์ง์ loss fuction์ ๊ฐ๋จํ ์์์ ๋๋ค.(=image, =label, =์ ๋ํ loss, =๋ฐ์ดํฐ์ ์)
๐ ์์ ๊ณ ์์ด, ์๋์ฐจ, ๊ฐ๊ตฌ๋ฆฌ ์๋์ ์ซ์๋ "" score ์ด๊ณ , ์ค๋ฅธ์ชฝ์ red box๊ฐ SVM loss์ ์์์ ๋๋ค. ์ ํฌ ์ด์ ๋ถํฐ ์ด ์์์ ๋ํด ๋ฏ์ด๋ณด๊ณ ์ดํด ํ ์์ ์ ๋๋ค.
๐ ํ๋์ฉ ์ ๊ทผํด๋ณด๊ฒ ์ต๋๋ค. ์ ์๋ฏธํฉ๋๋ค. ์ฆ ๋ฅผ ์๋ฏธํฉ๋๋ค. ๋ ์ ๋ต์ด ์๋ ๊ฐ๋ค์ ๋๋ค. ์ฆ, ๊ณ ์์ด์ ์ด์์ ๋ณธ๋ค๋ฉด car, frog์ ๊ฒฐ๊ณผ ๊ฐ์ ๋๋ค. ๋ ์ ๋ต์ธ class์ ์์ธก๊ฒฐ๊ณผ์ ๋๋ค. ์ฆ, ๊ณ ์์ด์ ์ด์์ ๋ณธ๋ค๋ฉด ๊ณ ์์ด๋ก ์์ธกํ ๊ฒฐ๊ณผ ๊ฐ์ ๋๋ค. ์์ ๊ฒ ๋ฐํ์ผ๋ก ์์์ ํด์ํ๋ฉด ๊ฐ๋จํฉ๋๋ค. ์ ๋ต์ธ class์ ์์ธก ๊ฒฐ๊ณผ ๊ฐ์ด ์ ๋ต์ด ์๋ ๊ฒฐ๊ณผ ๊ฐ + 1 ๋ณด๋ค ํฌ๋ค๋ฉด 0์ด๊ณ ๊ทธ๋ ์ง ์์ผ๋ฉด ์ ๋ต์ธ class์ ์์ธก ๊ฒฐ๊ณผ ๊ฐ์ด ์ ๋ต์ด ์๋ ๊ฒฐ๊ณผ ๊ฐ + 1 ์ฐจ์ด๋ฅผ loss๋ก ํฉ๋๋ค.
๐ ์์ ๊ทธ๋ํ๊ฐ SVM loss์ ๊ทธ๋ํ์ ๋๋ค. ๊ฒฝ์ฒฉ๊ณผ ๋น์ทํ๋ค๊ณ ํด "Hinge loss"๋ผ๊ณ ๋ ๋งํฉ๋๋ค. SVM loss๋ ๊ฐ์ด ์ปค์ง๋ฉด ์ปค์ง์๋ก ์ข์ง ์์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค. ๋ฐ๋๋ก loss ๊ฐ 0์ ๊ฐ๊น์ ์ง๋ค๋ฉด ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ๋ ํ ์ ์์ต๋๋ค. (๋จ, test loss์ ๋ํด์)
๐ ์ดํด๋ฅผ ๋๊ธฐ ์ํด ์์ ์์ ์ SVM loss๋ฅผ ๊ตฌํด๋ณด๊ฒ ์ต๋๋ค. ๊ณ ์์ด๊ฐ ์ ๋ต์ธ ์ด์ loss๋ฅผ ๊ตฌํด๋ณด๊ฒ ์ต๋๋ค. ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค. ์ด์ ๊ฐ์ ํ์์ผ๋ก ๊ฐ๊ฐ์ loss๋ฅผ ๊ตฌํ๊ณ ๋ํด์ ํ๊ท ์ ๊ตฌํ๋ฉด ์ ๊ฒฐ๊ณผ๊ฐ ๋์ต๋๋ค. ์์ ๋ฅผ ํ๋์ฉ ๋ฐ๋ผํ์๋ฉด ๊ธ๋ฐฉ ์ดํดํ์ค ์ ์์๊ฒ๋๋ค. ์ด์ ๋ช ๊ฐ์ง ์ง๋ฌธ์ ํตํด SVM loss์ ํน์ง์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค.
Q: What happens to loss if car scores change a bit?
๐ A: car score์ด ์กฐ๊ธ ๋ณํด๋ loss๋ ๊ทธ๋๋ก์ผ ๊ฒ๋๋ค. car score์ ๋ค๋ฅธ score์ ์ ์ ์ฐจ๊ฐ ํฌ๊ธฐ์ ๋ณํจ ์์ ๊ฒ๋๋ค.
Q: What is the min/max possible loss?
๐ A: min = 0, max =
Q: At initialization W is small so all . What is the loss?
๐ A: Class Num - 1
Q: What if the sum was over all classes(including j = y_i)
๐ A: Loss + 1
Q: What if we user mean instead of sum?
๐ A: ๊ฐ์ด scale๋๋ ๊ฒ๋ฟ ์๋ฏธ๋ ๋ฌ๋ผ์ง์ง ์์ต๋๋ค.
Q: What if we used ?
๐ A: ์ผ๋ฐ์ ์ผ๋ก "squaerd Hinge loss"๋ผ๊ณ ๋ถ๋ฅด๊ณ , ์์ ๋ฐฉ๋ฒ์ ๋ง์ฝ ๋งค์ฐ ์์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณฑํ๋ฉด ๋ ๋ง์ด ์์ข์์ง ๊ฒ๋๋ค. ์ฆ, ์์ข์ ์ชฝ์ ๋ ๋ง์ด ์ ๊ฒฝ์ฐ๊ฒ ๋ ๊ฒ๋๋ค.
๐ ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ Overfitting ๋์์ต๋๋ค. ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ ์กฐ๊ธ ๋ ์ผ๋ฐ์ ์ธ ๋ชจ๋ธ๋ก ๋ง๋ค์ด์ผํฉ๋๋ค. ์์ ๋ น์์ ์ ๊ทธ๋ํ์ฒ๋ผ ๋ง๋ค์ด์ผํฉ๋๋ค. ๊ทธ๋ด๋ ์ฌ์ฉํ๋ ๊ฒ์ด "Regularization" ์ ๋๋ค. "Regularization"์ ์์์ ์์ ์ ๋๋ค. "Regularization"์ ์ญํ์ ๋ชจ๋ธ์ ๋ณต์กํจ์ ์ ํํฉ๋๋ค. ์กฐ๊ธ ๋ ๊ตฌ์ฒด์ ์ผ๋ก ๋ชจ๋ธ์ด training dataset์ ์๋ฒฝํ๊ฒ fit ํ์ง ๋ชปํ๋๋ก ์ ํํ๋ ๊ฒ ์ ๋๋ค.
๐ ์์ ์ฌ์ง์์ ๋ณผ ์ ์๋ฏ์ด "Regularization"์๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ด ์์ต๋๋ค. ์ค๋์ L2, L1 "Regularization"์ ์ดํด๋ณผ ์์ ์ ๋๋ค. L2๋ ์ ๊ฐ์ด ์ ๊ณฑ์ ํํ๋ก ๋ํ๋ด๋ฉฐ, L1์ ์ ๋ ๊ฐ์ ํํ๋ฅผ ๋ํ๋ ๋๋ค. L2์ ๊ฒฝ์ฐ ๋ชจ๋ w์ ์์๊ฐ ๊ณจ๊ณ ๋ฃจ ์ํฅ์ ๋ฏธ์น๊ฒ ํ๊ณ ์ถ์ ๋ ์ฌ์ฉํฉ๋๋ค. L1์ ๊ฒฝ์ฐ sparseํ solution์ ๋ค๋ฃน๋๋ค. L1์ด "์ข์ง ์๋ค"๋ผ๊ณ ๋๋ผ๊ณ ์ธก์ ํ๋ ๊ฒ์ "0"์ด ์๋ ์์๋ค์ ์ซ์์ ๋๋ค. L2์ ๊ฒฝ์ฐ์๋ w์ ์์๊ฐ ์ ์ฒด์ ์ผ๋ก ํผ์ ์์ ๋ "๋ ๋ณต์กํ๋ค"๋ผ๊ณ ๋๋๋๋ค.
๐ SVM loss์ ๊ฒฝ์ฐ score์ ์๋ฏธ๋ฅผ ๋ค๋ฃจ์ง ์์ต๋๋ค. ์ ๋ต ํด๋์ค์ ๊ฐ์ด ์ ๋ต์ ํด๋์ค์ ๊ฐ๋ณด๋ค ์ผ์ ์์ค ๋์ผ๋ฉด loss๋ 0์ ๋๋ค. Softmax fucntion์ ์ฅ์ ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ ์ ์์ต๋๋ค.
๐ ์ฐ๋ฆฌ๋ ํ๋ฅ ๊ฐ์ ์ํ๊ธฐ ๋๋ฌธ์, ์ง์ํจ์์ ํํ๋ก ๋ํ๋ ๋๋ค. ํํ๋ ๋จ์กฐ ์ฆ๊ฐ ํจ์์ด์ ์ต๋ํ๊ฐ ๊ฐํธํ๊ธฐ์ ์นํํ ๊ฒ์ ๋๋ค. ๋ํ ์ฐ๋ฆฌ๋ loss ์ฆ, ์์ค์ ์ฐพ๊ณ ์๊ธฐ์ ์์๋ฅผ ๊ณฑํด์ค๋๋ค. ์๋ ์ฌ์ง์์ ์์๋ฅผ ๋ณผ ์ ์์ต๋๋ค.
๐ ์์ ์ฌ์ง์ ๋ณด๋ฉด ์ฒ์์๋ ์ง์ ํจ์์ ํํ๋ก ๋ค์์๋ ํ์คํ๋ฅผ ์งํํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ณ ์์ด์ ํด๋น๋๋ ๊ฐ์ loss๊ฐ์ ์ฐพ์ต๋๋ค.Q: What is the min/max possible loss_i?
๐ A: max = 0, min =
Q: At initialization W is small so all . What is the loss?
๐ A:
๐ Gradient Descent๋ ๋ฏธ๋ถ์ ์ฌ์ฉํด ๊ณ์ฐํ๋ ๋ฐฉ์์ ๋๋ค. ์ฐ๋ฆฌ๋ ๋ฒกํฐ ํํ์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ์ ๊ฐ๊ฐ์ ํธ๋ฏธ๋ถ์ ์ฌ์ฉํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ฏธ๋ถ๊ฐ๊ณผ learning rate(ํ์ต๋ฅ )์ ์ฌ์ฉํด ์ต์ข ์ ์ผ๋ก ์์ ๊ทธ๋ํ์์ Minimun cost๊ฐ ๋๋์ง์ ๊น์ง ํ์ตํฉ๋๋ค. learning rate(ํ์ต๋ฅ )์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก์ ์ฌ์ฉ์๊ฐ ์ง์ ์ ํด์ค์ผํ๋ ํ๋ผ๋ฏธํฐ์ ๋๋ค. learning rate(ํ์ต๋ฅ )์ ํ์ต์ ๋ง์ ์ํฅ์ ์ฃผ๊ธฐ์ ์ ์คํ๊ฒ ์ ํํด์ผํฉ๋๋ค.