๋ค์ค ๋ถ๋ฅ (Multinomial Classification)์ Softmax
๋ก์ง์คํฑ ํ๊ท : ์ด์ง๋ถ๋ฅ(Binary Classification)
ํฉ๊ฒฉ/๋ถํฉ๊ฒฉ ๊ฐ์ ๋๊ฐ์ง ๋ถ๋ฅ๋ง ์ฒ๋ฆฌ ๊ฐ๋ฅ.
ํ์ , ํ์ข
๊ฐ์ ๋ถ๋ฅ๊ฐ 3๊ฐ ์ด์์ธ ๊ฒฝ์ฐ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
1. ๋ค์ค ๋ถ๋ฅ์ 2๊ฐ์ง ์ ๊ทผ ๋ฐฉ์
- ๋ก์ง์คํฑ ํ๊ท๋ฅผ ์ด์ฉํด ๋ค์ค ๋ถ๋ฅ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ์ง๊ฐ ์๋ค.
1) OvR (One-vs-Rest) : "๋๋จธ์ง๋ ๋ค ์ ์ด์ผ!"
- ๊ฐ์ฅ ์ง๊ด์ ์ธ ๋ฐฉ๋ฒ.
ํด๋์ค๊ฐ 3๊ฐ(A,B,C)๋ผ๋ฉด ๋ก์ง์คํฑ ํ๊ท๋ฅผ 3๋ฒ ์ํ
- A ๋ถ๋ฅ๊ธฐ : A๋? ์๋๋(B,C)? -> A์ผ ํ๋ฅ ๋์ถ
- B ๋ถ๋ฅ๊ธฐ : B๋? ์๋๋(A,C)? -> B์ผ ํ๋ฅ ๋์ถ
- C ๋ถ๋ฅ๊ธฐ : C๋? ์๋๋(A,B)? -> C์ผ ํ๋ฅ ๋์ถ
โ ์ด๋ ๊ฒ ๋์จ 3๊ฐ์ ํ๋ฅ ์ค ๊ฐ์ฅ ๋์ ๊ฐ์ ๊ฐ์ง ํด๋์ค๋ฅผ ์ ํ
(Scikit-learn์ LogisticRegression ๊ธฐ๋ณธ๊ฐ ์ค ํ๋)
2) ๋คํญ ๋ก์ง์คํฑ (Multinomial Logistic) : "Softmax"
- ์ฌ๋ฌ ๊ฐ์ ํ๋ฅ ์ ํ ๋ฒ์ ๊ณ์ฐํ์ฌ ์ ์ฒด ํฉ์ด 1์ด ๋๋๋ก ๋ง๋๋ ๋ฐฉ์.
์ด๋ ์ฌ์ฉํ๋ ํ์ฑํ ํจ์๊ฐ ๋ฐ๋ก ์ํํธ๋งฅ์ค(Softmax)์ด๋ค.
2. ํต์ฌ ํจ์: Softmax (์ํํธ๋งฅ์ค)
- ์๊ทธ๋ชจ์ด๋(Sigmoid)๊ฐ ์ด์ง ๋ถ๋ฅ์ ํ๋ฅ ์ ๋ฑ์ด๋ธ๋ค๋ฉด, ์ํํธ๋งฅ์ค๋ ๋ค์ค ๋ถ๋ฅ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฑ์ด๋ธ๋ค.
๊ณต์
์
๋ ฅ๋ฐ์ ๊ฐ(z)๋ค์ ์ง์ ํจ์(ez)๋ก ๋ณํํ ๋ค, ์ ์ฒด ํฉ์ผ๋ก ๋๋๋ค.
Softmax(ziโ)=โj=1Kโezjโeziโโ
Softmax์ 3๊ฐ์ง ํน์ง
- 0~1 ์ฌ์ด์ ๊ฐ : ๊ฒฐ๊ณผ๊ฐ์ ๋ฌด์กฐ๊ฑด ํ๋ฅ ์ฒ๋ผ ๋์ด
- ์ดํฉ์ 1 : ๋ชจ๋ ํด๋์ค์ ํ๋ฅ ์ ๋ํ๋ฉด ์ ํํ 1์ด ๋๋ค(์๊ทธ๋ชจ์ด๋์์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ )
- ํฐ ๊ฐ์ ๋ ํฌ๊ฒ : ์ง์ ํจ์(ex)๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ z๊ฐ์ด ์กฐ๊ธ๋ง ์ปค์ ธ๋ ํ๋ฅ ์ ํ ๋์ด์ง(ํ์คํ ๊ตฌ๋ถ)