๐Ÿง ๋Œ€์ฒด ์‹œ๊ทธ๋ชจ์ด๋“œ(Sigmoid) ํ•จ์ˆ˜๊ฐ€ ๋ญ”๋ฐ?

์Šน์ค€ยท2021๋…„ 4์›” 13์ผ
0

๐Ÿ’๐Ÿปโ€โ™€๏ธ ๋“ค์–ด๊ฐ€๋ฉฐ

ML/DL์„ ๊ณต๋ถ€ํ•˜๋‹ค ๋ณด๋ฉด Activation ํ•จ์ˆ˜๋กœ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋ฅผ ์ž์ฃผ ๋งŽ๋‚˜๊ฒŒ ๋œ๋‹ค. ํ˜น์€ ํ†ต๊ณ„ํ•™์—์„œ๋„ Logistic ๋ถ„ํฌ, Normal ๋ถ„ํฌ, t-๋ถ„ํฌ์—์„œ๋„ ์‹œ๊ทธ๋ชจ์ด๋“œ ๊ณก์„ ์ด ์ž์ฃผ ๋“ฑ์žฅํ•œ๋‹ค. ์–ด๋–ป๊ฒŒ ์ด๋Ÿฐ ํ•จ์ˆ˜๊ฐ€ ๋“ฑ์žฅํ–ˆ๋Š”์ง€ ์™œ ์‚ฌ์šฉํ•˜๋Š” ์ง€ ์‚ดํŽด ๋ณด๊ณ ์ž ๊ธ€์„ ์ž‘์„ฑํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค.

์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋Š” S์žํ˜• ๊ณก์„  ๋˜๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ๊ณก์„ ์„ ๊ฐ–๋Š” ์ˆ˜ํ•™ ํ•จ์ˆ˜์ด๋‹ค. ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ์˜ˆ์‹œ๋กœ๋Š” ์ฒซ ๋ฒˆ์งธ ๊ทธ๋ฆผ์— ํ‘œ์‹œ๋œ ๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜๊ฐ€ ์žˆ์œผ๋ฉฐ ๋‹ค์Œ ์ˆ˜์‹์œผ๋กœ ์ •์˜๋œ๋‹ค.

์ถœ์ฒ˜: ์œ„ํ‚คํ”ผ๋””์•„

๐Ÿ—ฃ ๋ถ„๋ฅ˜์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•๋ฅ˜๋กœ ์–˜๊ธฐ ํ•˜๊ธฐ

๊ธฐ์กด ํšŒ๊ท€ ๋ชจํ˜•์˜ ๋ฌธ์ œ์ ๋“ค

  • Target Label์ด 1์ด์ƒ 0์ดํ•˜์˜ ์ˆ˜๋“ค์ด ๋‚˜์˜ค๋Š” ๊ฒƒ์„ ์–ด๋–ป๊ฒŒ ํ•ด์„ ํ•  ๊ฒƒ์ด๋ƒ?
  • 1 ๋˜๋Š” 0์œผ๋กœ ์ •ํ™•ํžˆ ํ‘œํ˜„ ๊ฐ€๋Šฅ ํ•œ๊ฐ€?
  • ๋ณ€์ˆ˜๊ฐ€ Y์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ์ •๋„๊ฐ€ ๋น„๋ก€ํ•˜๋Š” ๊ฐ€?
  • ํ™•๋ฅ ๋กœ ๋ฐœ์ƒํ•  ์‚ฌ๊ฑด์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํ‘œํ˜„ํ•ด์•ผ ํ•จ

๐Ÿ‹๐Ÿปโ€โ™€๏ธ ์–ด๋–ค ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ 

Sigmoid ํ•จ์ˆ˜ ํ˜น์€ Logistic ํ•จ์ˆ˜๋ฅผ Odds ratio๋ฅผ ํ†ตํ•ด ๊ตฌํ•ด์ง€๊ฒŒ ๋œ๋‹ค.

  • ์ผ์–ด๋‚  ํ™•๋ฅ  : P(X)P(X)
  • ์ผ์–ด๋‚˜์ง€ ์•Š์„ ํ™•๋ฅ  : 1โˆ’P(X)1 - P(X)
  • 0โ‰คP(X)โ‰ค10 โ‰ค P(X) โ‰ค 1

์œ„์™€ ๊ฐ™์ด $ P(X)$ ๋ฅผ ์ •์˜ ํ•˜์ž. ๊ทธ๋Ÿฌ๋ฉด Odds Ratio๋กœ ๋‚˜ํƒ€ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

Odds Ratio

ํ•ด๋‹น ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ ๊ณผ ์ผ์–ด๋‚˜์ง€ ์•Š์„ ํ™•๋ฅ ์˜ ๋น„์œจ

P(X)1โˆ’P(X)=์ผ์–ด๋‚ ํ™•๋ฅ ์ผ์–ด๋‚˜์ง€์•Š์„ํ™•๋ฅ \frac{P(X)}{1-P(X)}= \frac{์ผ์–ด๋‚  ํ™•๋ฅ }{์ผ์–ด๋‚˜์ง€ ์•Š์„ ํ™•๋ฅ }

์œ„ ์ˆ˜์‹์„ ๊ทธ๋ž˜ํ”„๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚œ๋‹ค. ํ™•๋ฅ ์ด ๋†’์œผ๋ฉด ๋†’์„ ์ˆ˜ ๋ก Odds ๊ฐ’์ด ๋ฌดํ•œ์ด ์ฆ๊ฐ€ํ•˜๋Š” ๊ทธ๋ž˜ํ”„์˜ ๋ชจ์–‘์ด ๋‚˜ํƒ€๋‚œ๋‹ค.

์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์‹ถ์€๊ฒƒ์€ XX ๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ์˜ ํ™•๋ฅ ์„ ์•Œ๊ณ  ์‹ถ๋‹ค. ๋•Œ๋ฌธ์— XX ๊ฐ’๊ณผ YY ๊ฐ’์„ ๋ฐ”๊ฟ”๋ณธ๋‹ค. ์ฆ‰, ์—ญํ•จ์ˆ˜๋ฅผ ๊ตฌํ•ด๋ณธ๋‹ค. ์ด๋•Œ, ์ด๊ฒƒ์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด Logit ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•œ๋‹ค.

Logit function

X๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ y์˜ ํ™•๋ฅ ์„ ์ด์šฉํ•œ Log odds๋ฅผ ๊ตฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

logit(p(y=1โˆฃx))=loge(p1โˆ’p)=loge(p)โˆ’loge(1โˆ’p)=โˆ’loge(1pโˆ’1)logit(p(y=1|x)) = log_e(\frac{p}{1-p}) \\ =log_e(p) - log_e(1-p)\\ = -log_e(\frac{1}{p} - 1)

์ด๋ ‡๊ฒŒ ์–ป์€ ๊ฐ’์„ ๊ทธ๋ž˜ํ”„๋กœ ํ‘œ์‹œํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

ย P(X)ย P(X)ํ™•๋ฅ  ์ผ ๋•Œ์˜ Logit(P)์˜ ๊ฐ’์„ ๊ตฌํ•˜๋Š” ๊ทธ๋ž˜ํ”„ ์ด๋‹ค. ํ•˜์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” XX ๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ์˜ ํ™•๋ฅ ์„ ์•Œ๊ณ  ์‹ถ๊ธฐ ๋•Œ๋ฌธ์— ์—ญํ•จ์ˆ˜๋ฅผ ๊ตฌํ•ด์•ผ ํ•œ๋‹ค.

Sigmoid(=Logistic) ํ•จ์ˆ˜

Logitโ€‹ ํ•จ์ˆ˜์˜ ์—ญํ•จ์ˆ˜๋กœ ย zย z์— ๊ด€ํ•œ ํ™•๋ฅ ๋กœ ๊ตฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

f(z)=โ€‰y=โˆ’loge(1zโˆ’1)โ€…์—ญํ•จ์ˆ˜ย ๋ณ€ํ™˜z=โˆ’loge(1yโˆ’1)โ€…yย ์—ย ๊ด€ํ•œย ์ •๋ฆฌf(z) =\, y = -log_e(\frac{1}{z}-1) \: \text{์—ญํ•จ์ˆ˜ ๋ณ€ํ™˜} \\ z = -log_e(\frac{1}{y}-1) \: \text{y ์— ๊ด€ํ•œ ์ •๋ฆฌ}

์—ฌ๊ธฐ์„œ zz๊ฐ’์€ ์œ„์—์„œ ์ด์•ผ๊ธฐ ํ–ˆ๋˜ P(X)P(X) ํ™•๋ฅ ์„ ์˜๋ฏธํ•˜๋Š” ๊ฒƒ์ด๊ณ , ์ฆ‰ ์ด์ œ ์•ž์œผ๋กœ ๊ตฌํ•˜๊ฒŒ ๋˜๋Š” ์–ด๋–ค ๊ฐ’์œผ ๋งํ•œ๋‹ค. ์ด๊ฒƒ์„ ๋‹ค์‹œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ณ€ํ™˜ํ•˜๋ฉด Logistic ํ•จ์ˆ˜๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

z=โˆ’loge(1yโˆ’1)eโˆ’z=1โˆ’yyyโˆ—eโˆ’z+y=1y(eโˆ’z+1)=1y=11+eโˆ’zz = -log_e(\frac{1}{y}-1)\\ e^{-z} = \frac{1-y}{y}\\ y*e^{-z} + y = 1\\ y(e^{-z} + 1) = 1\\ y = \frac{1}{1+e^{-z}}

์ด๋ ‡๊ฒŒ ์–ป์–ด์ง„ ํ•จ์ˆ˜๋ฅผ Logistic ํ•จ์ˆ˜๋ผ๊ณ  ํ•˜๊ณ . ๋ชจ์–‘์ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด Sํ˜•ํƒœ๋กœ ๋‹ฎ์•˜๋‹ค๊ณ  ํ•˜์—ฌ Sigmoid ํ•จ์ˆ˜๋ผ๊ณ  ํ˜ธ์นญํ•œ๋‹ค. ์ด ํ•จ์ˆ˜์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ํŠน์ง•์€ ์—ฐ์†๊ตฌ๊ฐ„์—์„œ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋ฅผ ๋ˆ๋‹ค๋Š” ์ ์ด๋‹ค.

์„ ํ˜• ํ•จ์ˆ˜์—์„œ Sigmoid ํ•จ์ˆ˜๋กœ ๋ณ€ํ™˜

๋‹ค์Œ๊ณผ ๊ฐ™์ด Logit ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•ด์„œ ๊ธฐ์กด์— ํšŒ๊ท€์‹์œผ๋กœ ๋‹ค๋ฃฐ ์ˆ˜ ์—†์—ˆ๋˜ ํ™•๋ฅ ์„ ํ†ตํ•ด Cost ํ•จ์ˆ˜๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. w0x0+w1x1+...+wnxnw_0x_0 + w_1x_1 + ... + w_nx_n ๊ฐ’์„ ๊ตฌํ•˜๊ฒŒ ๋˜๋ฉด zz ๊ฐ’์„ ์•Œ๊ฒŒ ๋˜๊ณ  zz์„ ๊ฐ’์„ ์•Œ๊ฒŒ๋˜๋ฉด ํ™•๋ฅ  PP์˜ ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

p=ฯƒ(z)=11+eโˆ’z,โ€…p1โˆ’p=11+eโˆ’zeโˆ’z1+eโˆ’z=1eโˆ’z=ezlogep1โˆ’p=zlogep1โˆ’o=z=w0x0+w1x1+...+wnxnp = \sigma(z) = \frac{1}{1+e^{-z}},\: \frac{p}{1-p} = \frac{\frac{1}{1+e^{-z}}}{\frac{e^{-z}}{1+e^{-z}}} = \frac{1}{e^{-z}} = e^{z} \\ log_e\frac{p}{1-p} = z \\ log_e\frac{p}{1-o} = z = w_0x_0 + w_1x_1 + ... + w_nx_n
profile
๋‚ด์ผ์„ ๊ธฐ๋กํ•˜๊ธฐ ์œ„ํ•ด์„œ ์˜ค๋Š˜์„ ๊ธฐ๋กํ•ฉ๋‹ˆ๋‹ค ๐Ÿค—

0๊ฐœ์˜ ๋Œ“๊ธ€