๐ ๋ณธ ๋ด์ฉ์ Michigan University์ 'Deep Learning for Computer Vision' ๊ฐ์๋ฅผ ๋ฃ๊ณ ๊ฐ์ธ์ ์ผ๋ก ํ๊ธฐํ ๋ด์ฉ์
๋๋ค. ๋ด์ฉ์ ์ค๋ฅ๋ ํผ๋๋ฐฑ์ด ์์ผ๋ฉด ๋ง์ํด์ฃผ์๋ฉด ๊ฐ์ฌํ ๋ฐ์ํ๊ฒ ์ต๋๋ค.
(Stanford์ cs231n๊ณผ ๋ด์ฉ์ด ๊ฑฐ์ ์ ์ฌํ๋ ์ฐธ๊ณ ํ์๋ฉด ๋์ ๋์ค ๊ฒ ๊ฐ์ต๋๋ค)๐
1. Parametric Approach
1) input image : 32x32x3 ํฝ์
์ ์ด๋ฏธ์ง
2) f(x,W) = ์ ํ ๋ถ๋ฅ๊ธฐ (๊ฐ์ฅ ๋จ์ํ ๋ถ๋ฅ๊ธฐ, Neural Network์ ๊ธฐ๋ณธ)
- x = input ์ด๋ฏธ์ง ํฝ์
๋ฒกํฐ(32x32x3=3072)
- ๋ฒกํฐ๋ก ํ๋ ์ด์ : input data๋ ๋ชจ๋ ์ฐจ์, ํฌ๊ธฐ ๋ค๋ฅผ์ O โ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ณต๊ฐ๊ตฌ์กฐ ํ๊ดด(์
๋ ฅ ๋ฐ์ดํฐ ์ฌ๊ตฌ์ฑ)ํ์ฌ ํต์ผ๋๊ฒ inputํ๋ ค๊ณ
- W = ๊ฐ์ค์น
- f(x,W) = Wx (๊ธฐ๋ณธ)
- b = bias (์ถ๊ฐ์ ์ธ ๊ฐ์ค์น ์ญํ )
- ์ฌ์ฉ ์ด์ : bias ์์ผ๋ฉด ๋ฌด์กฐ๊ฑด ์์ ์ง๋๋ ํ๊ณ ๊ทน๋ณต, ๋น์ ํ์ผ๋ก ๋ง๋ค์ด์ ๋ ๋ถ๋ฅ ์ํ๊ฒ ํ๋ ค๊ณ
3) 10 numbers giving class scores
- ๊ฐ class(category) 10๊ฐ ๋ณ๋ก ์ ์๋งค๊น
4) ์์
- step1) input image ๋ฒกํฐํ
- step2) ๊ฐ์ค์น ์ ์ฉ + bias ์ ์ฉ
- b(3,) โ 3: ์ ๋ต category ์
- W(3,4) โ 3: ์ ๋ต category ์, 4: input ์ฐจ์ ์
2. ์ ํ ๋ถ๋ฅ์ ์ฌ๋ฌ ๊ด์ ๋ค์ ํตํ ํน์ง
: ์ ํ ๋ถ๋ฅ = ํ๋ ฌ, ๋ฒกํฐ ๊ณฑ์
์ ๊ฐ๋จํ ๋ชจ๋ธ
: ์ฌ๋ฌ ๊ด์ ๋ค๋ก ์ ํ ๋ถ๋ฅ์ ํน์ง๋ค์ ํ์ธํด๋ณด์.
1) ๋์(์ํ)์ ๊ด์ (Algebraic viewpoint)
a. ๊ฐ๋
- ์์ ์์์ ๊ฐ์ด ํ๋ ฌ ๋ด์ + ๋ฒกํฐํ
- input data๋ฅผ ๋ฒกํฐํํ๋ ๋ฐฉ๋ฒ
- ์ํ์ ๊ด์ ์์ ํ๋ ฌ ๋ด์ ๊ณ์ฐ
b. ํน์ง
- ์์ธก์ด ์ ํ์
- ex. bias๊ฐ ์๋ค๊ณ ์๊ฐํ๊ณ f(x,W)๋ณด๋ฉด
- ์์ c์ ๋ฐ๋ผ ์์ธก์ ์ ๋ฌ๋ผ์ง์๋(์ ํ์ด๋ผ ๊ฐ๋ฅํ๊ฑฐ)
- ex.
- 0.5 * image = ๋ชจ๋ ํฝ์
์ฑ๋ ๊ฐ์
- ์์ธก ์ ์๋ ๋ชจ๋ ์นดํ
๊ณ ๋ฆฌ์ ๋ํด 1/2 ๋๋๊ฒ (์ ํ์ด๋ผ์)
- ์ง๊ด์ X(์์ธก ์ ์๊ฐ ๋ณ๊ฒฝ๋ผ์ ์์ c๊ณฑํ๋๊ฑด ์ง๊ดX)
c. cf) Bias Trick (์ ์ฌ์ฉX)
-
๊ฐ๋
- ๊ฐ์ค์น ํ๋ ฌ์ bias ๋ฒกํฐ ํตํฉ์ํค๊ธฐ
- ํตํฉ์์ผ๋ ๋ถ๋ฆฌํด์ ๊ณ์ฐํ๋ ๊ฒ๊ณผ ๋์ผ ๊ฒฐ๊ณผ ๋์ถ
- input data๊ฐ ๊ธฐ๋ณธ ๋ฒกํฐ ๊ฐ์ง๋ ์ฌ์ฉ๋จ
- ์ด ๊ฐ๋
๋ณด๋ค, ๊ทธ๋ฅ ๋์์ ๊ด์ ์ ์ ํ ๋ถ๋ฅ๊ธฐ๊ฐ ๋ ์ฌ์ฉ ๅค
-
์์
- W(3,5): 3๊ฐ์ ์ ๋ต ์นดํ
๊ณ ๋ฆฌ, 5๊ฐ์ vectorํฌ๊ธฐ (ํ์ค ๋์ด๋์)
- (5,) : ๊ฐ์ค์น ์ด์ด 1๊ฐ ๋ ๋์ด๋์ ๊ฑ ์๋ฏธ์์ด 1 ๋ถ์ด๋ ๊ฒ
-
๋จ์
- ๊ฐ์ค์น์ bias๋ฅผ ๋ณ๋ ๋งค๊ฐ๋ณ์๋ก ๋ถ๋ฆฌํ์ฌ ์ฒ๋ฆฌํ๋ ๊ฒฝ์ฐ ๋ง์ (ex. ์ด๊ธฐํ, ์ ๊ทํ)
2) ์๊ฐ์ ๊ด์ (visual viewpoint)
a. ๊ฐ๋
- Weight์ input๊ณผ ๊ฐ์ ๋ชจ์์ผ๋ก ์ฌ๊ตฌ์ฑ
- bias๋ฅผ ๊ฐ๊ฐ์ weight์ ๋ถ์ด๊ธฐ(์๋๋ ํ ์ค์ ๋ฒกํฐ๋ก ๋ง๋ค์์)
- ์ข ๋ ์ง๊ด์ ์ผ๋ก ์ดํด๊ฐ๋ฅ
b. ํน์ง
- ๊ฐ ์ ๋ต ์นดํ
๊ณ ๋ฆฌ๋ณ๋ก ํ๋์ template ์กด์ฌ (template matching)
- ๋ช
ํํ ๋ถ๋ฅ๊ฐ ์ด๋ ค์ธ ์ ์์
- ์ด๋ฏธ์ง์ context ๋จ์์ ๊ฐํ๊ฒ ์์กด
= ๋ฐฐ๊ฒฝ์์ ๋ฐ๋ผ ๋์ ์ ์ ์ป์ ์ ์๊ธฐ์ ๋ช
ํํ ๋ถ๋ฅ ์ด๋ ค์
= ๋ฑ
๊ธฐ, ๊ฐ, ์ฌ์ด ๊ฐ์ ๋ฌผ์ฒด category ์ธ์ํ๊ณ ์ถ์ผ๋, ์ค์ ๋ก๋ input image์ ๋ ๋ง์ ์ฆ๊ฑฐ ์ฌ์ฉ (๊ฐ์ฒด ์์ฒด๋ณด๋ค)
- ex1. plane template (์ผ๋ฐ์ ์ผ๋ก ํ๋ ์ด๋ฏธ์ง)
- (์ด ๊ฐ์ค์น ๋งคํธ๋ฆญ์ค ์ฌ์ฉํ๋ ๊ฒฝ์ฐ) ํ๋์์ด ๋ง์ input image๋ plane class์ ๋ํ ๋์ ์ ์ ๋ฐ์ ๊ฒ
- ex2. car template
- cifar10์๋ red car์ด ๋ง์๊ฑธ ์์ ์์ (๋
น์, ํ๋ car ์ธ์X)
- input image์ ๋ํ ๋ค์ํ ๋ณ์(์, ๋ฐฉํฅ) ์ธ์ X
- ex. ๋ค๋ฅธ ๋ฐฉํฅ ๋ณด๋ ๋ง์ ๋ํ template์ ๋ณ๋ ํ์ต ๋ถ๊ฐ (two head๋ก ๋์ด)
3) ๊ธฐํํ์ ๊ด์ (Geometric viewpoint)
a. single pixel
- ์์์ ํ๋ ๊ฒ๊ณผ ๋์ผ
- ์์์ ํฝ์
์ ํ๋ ๊ฐ์ง๊ณ score ๊ฒฝ๊ณ ๋ง๋๋ ๊ฒ
- ํด์
- value of pixel(15,8,0): ๊ฐ๋ณ๊ฐ ๋ณ๊ฒฝ์ ๋ฐ๋ฅธ ํฝ์
๊ฐ ๋ณํ
- classifier score: ์ด ํฝ์
์ ๋ฐ๋ฅธ category๋ค์ ๊ฒฝ๊ณ์
b. multiple pixel
- ํน์ง
- ์ผ์ฐจ์์ ์ดํ๋ฉด์ผ๋ก ํํํ์ฌ 3์ฐจ์์ ์์น์ํด
- ๊ณ ์ฐจ์ ์ ํด๋ฆฌ๋์ space ์๊ตฌ
- ๋งค์ฐ ๋์ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก ์ด๋ฏธ์ง ์ ์ฒด ๊ณต๊ฐ ์ทจํจ
- category 1๊ฐ๋น 1๊ฐ์ ์ดํ๋ฉด
- W(๊ฐ์ค์น ๊ฐ)=๊ฐ ์ ๋ถ์ ๊ธฐ์ธ๊ธฐ (๊ฑ ๊ธฐ์กด 1์ฐจ์์ 3์ฐจ์ ํ๊ฑฐ๋๊น)
- ์ฅ์
- ์ ํ ๋ถ๋ฅ๊ธฐ๊ฐ ์ด๋ค category๋ฅผ ์ธ์ ๊ฐ๋ฅํ์ง ํ์
๊ฐ๋ฅ
- ๋จ์
- ๊ธฐํํ์ด ์ด๋ป๊ฒ ์์ฉํ๋์ง์ ๋ํ ๋ฌผ๋ฆฌ์ ์ง๊ด ์๊ธฐ ์ด๋ ค์ (์ฐ๋ฆฌ์ ์ง๊ด์ ์ ์ฐจ์์ ์ต์ํด์)
c. ์ ํ๋ถ๋ฅ๊ฐ ์ ์๋๋ ๊ฒฝ์ฐ (๊ธฐํํ์ ๊ด์ ์์) โ ๊ฑ ๋ถ๋ฅ์ ํ๊ณ์์ ์ด์ ๋
- ์ฒซ๋ฒ์งธ ์์
- ์๋ก ๋ค๋ฅธ ์นดํ
๊ณ ๋ฆฌ์ ์ํ ๋
- ๋๋ฒ์งธ ์์
- ์ฐ์์ ์ด์ง ์์๋
- ์ธ๋ฒ์งธ ์์
- ๋ค๋ฅธ mode๋ค ๊ฐ์ง๋ (ex. ๋ง์ด ๋ค๋ฅธ ๋ฐฉํฅ ๋ด)
๊ณ ์ฐจ์ ํฝ์
๊ณต๊ฐ์์ ์ค๋ฅธ์ชฝ ๋ณด๋ ๋ง์ ํด๋นํ๋ ๊ณต๊ฐ์ ์ผ๋ถ์์ญ์ด ์๊ณ , ๋ค๋ฅธ ๋ฐฉํฅ์ ๋ณด๋ ๋ง์ ํด๋นํ๋ ์์ ๋ถ๋ฆฌ๋ ๊ณต๊ฐ ์์ญ ์์
- ํผ์
ํธ๋ก
- ํน์ง
-
์ต์ด์ ๊ธฐ๊ณํ์ต ์๊ณ ๋ฆฌ์ฆ
-
์ด์ง ๋ถ๋ฅ ์ ์ฌ์ฉ
-
์
๋ ฅ๊ฐ+๊ฐ์ค์น>์๊ณ๊ฐ = 1 , ๋ฐ๋๋ฉด 0
-
๋จ์ธต ํผ์
ํธ๋ก : 1๊ฐ์ ์ถ๋ ฅ๋ด๋ฐ, ์ ํ ๋ถ๋ฅ์๋ง
- ex. ํผ์
ํธ๋ก ์ด XORํจ์ ์ธ์ํ ๋ฐฉ๋ฒX (= ํ๋์ ์ ์ผ๋ก ํ๋์, ์ด๋ก์ ์์ญ ๋ถ๋ฅX)
-
๋ค์ธต ํผ์
ํธ๋ก : ์ฌ๋ฌ ์๋์ธต, ๋น์ ํ ๋ถ๋ฅ๋ ๊ฐ๋ฅ
3. Scoreํจ์ ์๋ ์๋ฆฌ ํ์
์ค์์ฑ
1) ํ์์ฑ
- ์ ํ ๋ถ๋ฅ๊ธฐ๊ฐ ์์ผ๋ฏ๋ก , score์์ธก ๊ฐ๋ฅ
2) ์์ผ๋ก ์์์ผ ๋ ๊ฒ
- Loss function: ์ต์ ์ W์
๋ฐ์ดํธ ์ํด์
- Optimization: train dataํ์ฉํ์ฌ ๊ฐ๋ฅํ W๋ชจ๋ ๊ฒ์ํ๊ณ , ์ฐ๋ฆฌ ๋ฐ์ดํฐ์ ์ ํฉํ W์ฐพ๊ธฐ
4. Loss function
1) ๊ฐ๋
- ๋ถ๋ฅ๊ธฐ๊ฐ ๋ฐ์ดํฐ์ ๋ํด ์ผ๋ง๋ ์ ์ํํ๋๊ฐ
- ์ธ์ , ์ด๋ค ์ ํ์ ๋ชจ๋ธ์ด ์ข์์ง ์๋ ค์ค
- loss ์์ = good classifier loss ํผ = bad classifier
- = objective function, cost function
- cf) Negative loss function
- ์ ์๊ฐ ๋์์๋ก โ good classifier
2) ๊ตฌํ ์
a. ์ฒซ๋ฒ์งธ ์
- xi = input image
- yi = ์ ๋ต ์นดํ
๊ณ ๋ฆฌ (ex. cat)
b. ๋๋ฒ์งธ ์
- f(xi, W) = input์ ๊ฐ์ค์น ์ ์ฉํ ํจ์
- yi = ์ ๋ต ์นดํ
๊ณ ๋ฆฌ
- ์ ์ฒด = ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ์ฌ์ด์ badness์ธก์
c. ์ธ๋ฒ์งธ ์
โ ๊ฐ๊ธฐ ๋ค๋ฅธ task๋ง๋ค ๊ฐ๊ธฐ ๋ค๋ฅธ ์ ํ์ loss function ์จ์ผ๋จ
โ ํ๋์ task์์๋ ๋ค์ํ ์ ํ์ loss function์ด ์๋๋ฐ, loss function์ ๋ฐ๋ผ ์์ค ์ ๋๊ฐ ๋ฌ๋ผ์ง (5๋ฒ. Multiclass SVM Loss๊ฐ ๊ทธ ์์)
5. Multiclass SVM Loss
1) ๊ฐ๋
- ์ ๋ต์ ๋์ ์ ์, ์ค๋ต์ ๋ฎ์ ์ ์
2) ์๊ฐํ ๊ทธ๋ํ
a. margin
- ์ฌ์ฉ ์ด์
- loss๋ฎ์ถฐ์ ๊ณผ์ ํฉ ๋ฎ์ถ๊ณ , ์ผ๋ฐํ ๋์
(margin์์ผ๋ฉด ๊ทธ๋ฅ ๋ฌด์กฐ๊ฑด ํ๋ ธ๋ค๊ณ ํด๋ฒ๋ ค์ loss๊ฐ ๋ ๋์์ง)
b. ์ ์ฒด ํด์
- ์ ๋ต๊ณผ ์ค๋ต์ category score๋น๊ต
- ์ ํ์ ๊ฐ์
- ์ ๋ต > ์ค๋ต+margin
- hinge loss๋ผ๊ณ ๋ถ๋ฆผ
c. ์์ (๊ทธ๋ํ๋ฅผ ์์ผ๋ก ํํ)
- ์ฒซ๋ฒ์งธ ์
- xi=input image
- yi=์ ๋ต ์นดํ
๊ณ ๋ฆฌ
- ๋๋ฒ์งธ ์
- linear classification ๊ฒฐ๊ณผ
- ์ธ๋ฒ์งธ ์
- ์ ๋ต class โฅ ์ค๋ต class+1 โ loss=0
- ๋๋จธ์ง โ ์ ํ
3) ์์ ๊ณ์ฐ
- ์ ์ฒด loss๊ฐ = ๋ชจ๋ lossํฉ / ์นดํ
๊ณ ๋ฆฌ ๊ฐ์
4) Multiclass SVM Loss Question
- Q. car(์ณ๊ฒ ๋ถ๋ฅ๋ ๊ฒฝ์ฐ)์ ์ด๋ฏธ์ง ์ ์๊ฐ ์กฐ๊ธ ๋ฐ๋๋ฉด ์ ์ฒด loss๊ฐ ์ด๋ป๊ฒ ๋๋๊ฐ?
A. ์ฌ์ ํ ์์ค =0
- ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅ ๋๋ฉด, ์์ธก์ ์๊ฐ ์ฝ๊ฐ ๋ฌ๋ผ์ ธ๋ ์์ค์ ํฐ ์ํฅX
- ์ ๋ต๊ณผ ์ค๋ต์ ์ฐจ์ด๊ฐ margin๋ณด๋ค ํฌ๋ฉด ์ ๋ต
- Q. loss๊ฐ์ ๊ฐ๋ฅํ min, max๊ฐ์?
A. min =0 ; ์ ๋ต์ ์๊ฐ ์ค๋ต์ ์๋ณด๋ค ๋์๋
max = ๋ฌดํ๋; ์ ๋ต์ ์๊ฐ ์ค๋ต์ ์๋ณด๋ค ํจ ๋ฎ์๋
- Q. ๋ชจ๋ ์ ์๊ฐ random์ผ๋, loss๊ฐ ์ด๋ป๊ฒ ๋๋๊ฐ?
A. ์ด Loss๊ฐ = c-1์ด ๋จ.
๊ฐ์ค์น ํ๋ ฌ์ด random์ผ๋ก ์ด๊ธฐํ๋๋ฉด, ์์ธก์ ์๋ ๊ฐ ์นดํ
๊ณ ๋ฆฌ๋ณ๋ก random์ผ๊ฒ
- ex. ๋ชจ๋ small random value์ผ๋, ๋ชจ๋ score(์ค๋ต, ์ ๋ต)์ด ๊ฑฐ์ ๋น์ทํ๊ฑฐ๋ ์ค์ฐจ๊ฐ 0์ ๊ฐ๊น์ด ๊ฒฝ์ฐ
โ ํ๋์ ๋ํด Loss ๊ฐ = small value - small value + 1(margin)
โ ์ด c-1 ๊ฐ ์์ผ๋, Loss๊ฐ์ c-1์ด ๋๋๊ฒ
- Loss๊ฐ > c-1์ด๋ฉด, ๋๋ค๋ณด๋ค ๋ชปํ ์ฑ๋ฅ์ธ๊ฒ (๋๋ค์ผ๋ก ๋ฃ์๊ฒ๋ณด๋ค ์์ค์ด ํฌ๋๊น)
- ๋ชจ๋ ์ ์ ๋๋ค์ผ๋, ์์ํ ๊ฒ๊ณผ ๋ค๋ฅธ ์์ค ๋ฐ์์ ๋ฒ๊ทธ ํ๋ฅ ๋์์ง
- ์ ์์คํจ์ ๊ตฌํ ๋ฐ ํ์ต (โ ์์ ๋์๊ฐ์ผ๋ก ์ด๋ค ์ข
๋ฅ ์์ค์ธ๊ฑด์ง ์์)
- Q. ๋ชจ๋ class์ ๋ํด sum์ด ์ ์ฉ๋๋ค๋ฉด? (์ ๋ต๊ฐ์ ํฌํจํด์ Loss๊ตฌํ๊ธฐ) A. ๋ชจ๋ ์์ค์ +1 (max(0,1)=1) ํ๋ ๊ฒ = ๋ถ๋ฅ๊ธฐ์ ๋ํด ๋์ผ ์ ํธ๋ ๋ํ๋ = ๋ชจ๋ ์์ค์ 1์ ๊ฐ์ผ๋ก ๋ถํ๋ ค์ง์ง๋ง, ์๋์ ํ ๋น์ด ์๊ธฐ์ ์์ ๋ณ๊ฒฝX
- Q. sum๋์ ํ๊ท ๋ด์ ์์ค ๊ตฌํ๋ค๋ฉด?
A. ๊ฐ์ค์น matrix = ๊ธฐ์กด๊ณผ ๋์ผ
loss ๊ฐ = ๊ธฐ์กด๋ณด๋ค ์์์ง (ํ๊ท ๋ด์)
= (๋ชจ๋ Loss) * (c-1)์ด ๋๋ ๊ฒ (์์ธ์ง ๋ชจ๋ฅด๊ฒ ์)
- Q. ์ ๊ณฑ์ ์ทจํ๋ค๋ฉด?
A. ๋น์ ํ ๋ฐฉ์์ผ๋ก loss function of weight์ด ์ ํธ๋๋ฅผ ์์ฒญ ๋ฐ๊ฟ๊ฒ
- Q. ์ด Loss๊ฐ์ ๊ตฌํ ๋, L=0์ด๋ผ๋ฉด ๊ทธ๋ ๊ฒ ๋ง๋๋ W๊ฐ ์ ์ผํ๊ฐ?
A. No, 2W๋ L=0์ด ๋ ์ ์๋ค. = ๋ถ๋ฅ๊ธฐ๊ฐ ์ ํ์ด๊ธฐ์, ๋ชจ๋ ์์ธก์ ์๋ 2๋ฐฐ๊ฐ ๋จ = ์ฌ์ ํ margin ์ด๊ณผ โ Loss =0
โ ๊ทธ๋ ๋ค๋ฉด ๋์ผ ์์ค 2๊ฐ์ง W, 2W์ค์ ๋ญ ์ ํ?
โ> Regularization์ผ๋ก ํด๊ฒฐ
6. Regularization
1) ๊ฐ๋
- ์ ์ํ๋๋ ํ๋ จ ๋ฐ์ดํฐ์ ๋ง์์ธ์ฐ๋ ๋ชฉ์ ํจ์ or ์ ์ฒด ํ์ต ๋ชฉํ์ ์ถ๊ฐ
- Data loss = ๊ธฐ์กด loss = average loss
- ์ผ๋ง๋ train data ์ ์์ธกํ๋์ง
- Regularization
- train data์ ํฌํจ X
- train data์์ ๊ณผ์ ํฉ ๋ฐฉ์ง, ๋ชจ๋ธ์ ์๋ํ๋ ๊ฒ ์ธ์ ๋ค๋ฅธ ์์
์ ๊ณต
- Regularization Strength
- ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ์์ธกํ๋์ง ์ ์ถฉ์ ์ ์ด
- strength ๋์ผ๋ฉด โ ๊ณผ์ ํฉ ๊ฐ์ (ํ๋ฆฐ ๊ฐ์ ์ข ๋ด์ค)
2) ์์
3) ์ฌ์ฉ ๋ชฉ์
- ํ๋ จ error๋ฅผ ์ต์ํํ๋ ์์
์์ ์ธ๊ฐ์ ์ฃผ๊ด ๊ฐ์
ok
- ๊ณผ์ ํฉ ํผํ๊ธฐ โ ์ผ๋ฐํ ๋ ์ํ๊ธฐ
- ๊ณก๋ฅ ์ถ๊ฐํ๋ฉด์ ์ต์ ํ ๋ ์ํ๊ธฐ
4) ํน์ง
7. Cross entropy Loss
1) ๊ฐ๋
- SVM Loss๋ณด๋ค ์ ๊ฒฝ๋ง ํ์ต์ ๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ
- SVM Loss : ์์ธก๋ ์ ์์ ๋ํ ํด์ ์ ๊ณตX, ๊ฑ ๋์๋น๊ต(์ ๋ต์ ์>์ค๋ต์ ์๋ง) ๊ฐ๋ฅ Cross entropy Loss: ์์ธก ์ ์์ ๋ํ ํ๋ฅ ์ ํด์ ์ ๊ณตO
2) ์ ์ฉ ๋ฐฉ๋ฒ
- Step1: classifier์ ์ํด raw score ๋์ด
- step2: ์ง์ํจ์ํ(exp)
- ๋ชจ๋ ๊ฒฐ๊ณผ๊ฐ๋ค์ด 0์ด์(์์X)
- step3: ์ ๊ทํ (normalize) โ softmax๋ก
- ์ ๊ทํ ํ ํ๋ฅ ๋ํ๋ฉด 1
- softmax ์ฌ์ฉ ์ด์
- maxํจ์์ ๋ํ ๋ฏธ๋ถ๊ฐ๋ฅํ ๊ทผ์ฌ์ฌ์
- ๋ฏธ๋ถ๊ฐ๋ฅํ๊ธฐ ์ํ ๋ ์ฌ์ฉ(๋ฏธ๋ถ๊ฐ๋ฅํด์ผ ํ์ต ๊ฐ๋ฅํ์ฌ W updateํจ)
- ์ ์ฒด ์ค์ ๋น์ค ํ์ธ ๊ฐ๋ฅ
- step4: Loss๊ณ์ฐ
- log์ฐ๋ ์ด์ : ๋์๊ด๊ณ ์๋ณํด์
- log์์ - ๋ถ์ด๋ ์ด์ : ์ต๋ ์ฐ๋ ์ถ์ ์ธ์คํด์ค์ฌ์ : log์ทจํ๋ฉด ์ซ์๊ฐ ํด์๋ก ์์์ง, ๊ทผ๋ฐ loss๋ ์ซ์๊ฐ ํด์๋ก ์ปค์ง๊ณ ์์์๋ก ์์์ ธ์ผ ํด์ -๊ณฑํจ (์์ค์ด ์์์ ธ์ผ ๋๋๊น = GD๊ฐ ์์์ ธ์ผ๋ผ์)
- step5: ์ ๋ต ํ๋ฅ ๊ณผ์ ๋น๊ต
3) Question
- Q. Cross entropy Loss์์ min, max๋?
A. min=0 โ target๋ถํฌ๊ฐ 0๊ณผ 1์ผ๋, ์์ธก๊ณผ ํ๊ฒ ๋ถํฌ๊ฐ ๋จ์ด์ ธ์์๋ ๊ฐ๋ฅ max=๋ฌดํ๋
- Q. ๋ชจ๋ ์ ์๋ค์ด ์์ random์ผ๋, Loss๋?
A. -log(c)
- ๊ท ์ผํ ์ ์๋ถํฌ ์์ธก โ softmax โ ์์ธกํ๋ฅ ๋ถํฌ๊ฐ c๊ฐ category์ ๋ํด ๊ท ์ผ (๊ฐ๊ฐ 1/c์ธ๊ฒ) โ -log(c)
์ข์ ์ ๋ณด ์ป์ด๊ฐ๋๋ค, ๊ฐ์ฌํฉ๋๋ค.