๐Ÿšฉ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ดˆ - part08. Logistic Regression ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ถ„์„ (feat. Use sigmoid function)

vincaยท2022๋…„ 10์›” 26์ผ
0

๐ŸŒ“ AI/DL - theory

๋ชฉ๋ก ๋ณด๊ธฐ
9/24
post-thumbnail

Introduction

์ด์ „๊นŒ์ง€๋Š” ์„ ํ˜•ํšŒ๊ท€๋กœ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์„ ๊ณต๋ถ€ํ•ด ๋ณด์•˜๋‹ค.

์ด๋ฒˆ์—๋Š” ์ฐธ๊ณผ ๊ฑฐ์ง“, YES์™€ NO๋“ฑ 2์ง„๊ฐ’์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด๋ณด๋„๋ก ํ•œ๋‹ค.

  • ์ด์ง„๋ถ„๋ฅ˜์˜ ์˜ˆ

+) ๐ŸŽˆ ๊ธ€์„ ๋“ค์–ด๊ฐ€๊ธฐ ์ „, ์ฐธ๊ณ ์‚ฌํ•ญ

  • ์ฐธ == true == positive / ๊ฑฐ์ง“ == false == negative
    ์ด๋“ค์„ ๊ธ€์„์“ฐ๋‹ค๋ณด๋‹ˆ ๊ณ„์† ํ˜ผ๋™ํ•ด์„œ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜๋‚˜, ์ด์ง„๋ถ„๋ฅ˜์ด๋ฏ€๋กœ ์ด๋“ค์€ ๋‹ค ๊ฐ™์€ ๋ง์ด๊ตฌ๋‚˜ ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค.

What is Logistic?

์ด์ „์— ๊ณต๋ถ€ํ•œ Linear Regression์„ ๋‹ค์‹œ ์ƒ๊ฐํ•ด๋ณด์ž.
Linear์€ ์ฆ‰ ๊ทธ๋ž˜ํ”„์˜ ๊ฐœํ˜•์ด 1์ฐจ ํ•จ์ˆ˜๋กœ์จ ์„ ํ˜•์„ ์˜๋ฏธํ–ˆ๋‹ค. (์ง์„ )

๊ทธ๋Ÿผ Rogistic์€ ์–ด๋–ค ๊ทธ๋ž˜ํ”„์˜ ๊ฐœํ˜•์„ ๊ฐ€์งˆ๊นŒ?

๋ฏธ๋ฆฌ ๋ณด์ž๋ฉด Sigmoid ํ•จ์ˆ˜ ๊ทธ๋ž˜ํ”„๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

  • ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜
    ๊ทธ๋ ‡๋‹ค. ์•„๋ฌด๋ฆฌ๋ด๋„ ์ง์„ (Linear)์€ ์•„๋‹Œ ๊ฒƒ ๊ฐ™๋‹ค... ๊ทธ๋ ‡๊ธฐ์— Rogistic์ด๋ผ ๋ถ€๋ฅธ๋‹ค.

๊ทธ๋Ÿผ Logistic Rregression์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ?

Logistic Regression ์ด๋ž€?

Introduction์—์„œ ์ด๋ฏธ ๋‹ต์„ ๋งํ–ˆ์ง€๋งŒ, ์ฐธ๊ณผ ๊ฑฐ์ง“์„ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์œ„ํ•œ ๊ณผ์ •์ด๋‹ค.
์ด๋Ÿฌํ•œ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ฅผ ํ†ตํ•ด์„œ ์šฐ๋ฆฌ๋Š” ์ด์ง„ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ ๋‹ค.

  • ์ด์ง„ ๋ถ„๋ฅ˜์˜ ์ตœ์  ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ณผ์ •์ด Logistic Regression์ด๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋งŒ๋“ค์–ด ์ง„ ๊ฒƒ์ด Model์ด๋‹ค.

์ž ์ด์ œ ์ด๋Ÿฌํ•œ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋ฅผ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

Why use Logistic(Sigmoid)?

๊ทธ๋ƒฅ ์‰ฝ๊ฒŒ ์ด์ง„๋ถ„๋ฅ˜์—๋„ Linear๋ฅผ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๋ฉด ์•ˆ ๋˜๋Š”๊ฐ€?

๊ทธ๋ž˜. ๋‹น์—ฐํžˆ ์•ˆ๋˜๋‹ˆ๊นŒ Rogistic์„ ์“ฐ๋Š” ๊ฒƒ์ด๋‹ค.
๋‹ค์Œ ์˜ˆ์‹œ๋ฅผ ๋ณด์ž.

๊ณต๋ถ€์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๊ณผ๋ชฉ์ด์ˆ˜ ์—ฌ๋ถ€(fail, pass)๋‘ ๊ฐ€์ง€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ๋งŒ๋“ ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž.

ํ•™์Šต์„ ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋Š” ์™ผ์ชฝ๊ณผ ๊ฐ™๊ณ , ์ด๋ฅผ ์ขŒํ‘œ ํ‰๋ฉด์ƒ์— ํ‘œํ˜„ํ•œ๋‹ค๋ฉด ์˜ค๋ฅธ์ชฝ๊ณผ ๊ฐ™์„ ๊ฒƒ์ด๋‹ค.

์ด๋“ค์„ ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ์ ์˜ ์ง์„  (Linear)์„ ๊ทธ์–ด๋ณผ ์ˆ˜ ์žˆ๊ฒ ๋Š”๊ฐ€?

์–ด์ฐŒ์ €์ฐŒ ์„ ์€ ๊ทธ์—‡๋‹ค๋งŒ...์ž˜ ํ‘œํ˜„ํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

  • ์ด์ง„ ๋ถ„๋ฅ˜์ด๋ฏ€๋กœ 0๋˜๋Š” 1์ด๋ผ๋Š” ๊ฐ’๋งŒ ๋‚˜์˜ค๋„๋ก ํ•ด์•ผํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฒฐ๊ณผ๋Š” ์ค‘๊ฐ„๊ฐ’์ธ 0.5๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค.
    (์ฆ‰, ๊ฒฐ๊ณผ(yy)๋Š” ์ค‘๊ฐ„์ด ์—†๋‹ค)
  • y=0.03x+0.02y=0.03x+0.02์˜ ์„ ํ˜• ๋ชจ๋ธ์„ ํ•˜๋‚˜ ๋งŒ๋“ค์—ˆ๊ณ , ๊ณต๋ถ€์‹œ๊ฐ„(xx)๋ฅผ ๋ชจ๋ธ์— ๋Œ€์ž…ํ–ˆ์„ ๋•Œ, ํ•ด๋‹น ๊ฐ’์ด 0.5์ด์ƒ์ด๋ฉด ํ•ฉ๊ฒฉ(1)๋กœ 0.5๋ฏธ๋งŒ์ด๋ฉด ๋ถˆํ•ฉ๊ฒฉ(0)์œผ๋กœ yy(ํ•ฉ๊ฒฉ ์—ฌ๋ถ€)๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค. (๊ฒฐ๊ณผ(yy)๋Š” ์ค‘๊ฐ„์ด ์—†๋‹ค)

๊ณต๋ถ€์‹œ๊ฐ„ xx(17)์„ y=0.03x+0.02y=0.03x+0.02์˜ ์„ ํ˜• ๋ชจ๋ธ์— ์ ์šฉํ–ˆ์„ ๋•Œ, ์•„์Šฌ์•„์Šฌํ•˜๊ฒŒ 0.53์˜ ๊ฐ’์œผ๋กœ 0.5์ด์ƒ์˜ ๊ฐ’์ด ๋‚˜์™”๋‹ค. ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ๋ฐ˜์˜ํ•˜๋Š” ๊ฒƒ ๊ฐ™์ด ๋ณด์ธ๋‹ค!

Linear Regression ์‚ฌ์šฉ์˜ ๋ฌธ์ œ์  1

ํ•˜์ง€๋งŒ, ์—ฌ๊ธฐ์— ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์ด ํ•˜๋‚˜ ๋” ์ถ”๊ฐ€๋œ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž. ๊ทธ๋Ÿผ ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ์ถ”๊ฐ€๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ˜์˜ํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๊ทธ๋ž˜ํ”„๋ฅผ ์•ฝ๊ฐ„ updateํ•ด ์ฃผ์–ด์•ผํ•  ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฌํ•œ update๋Š” Linear Regression์˜ ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค.

  • 17์‹œ๊ฐ„์ด๋ฉด ํ•ฉ๊ฒฉ์„ ํ–ˆ๋Š”๋ฐ, ์ด์ œ๋Š” fail์ด ๋˜์–ด์•ผ ํ•œ๋‹ค??

๊ทธ๋ฆผ์—์„œ ๋ณด๋“ฏ, ๊ณต๋ถ€์‹œ๊ฐ„ xx(17)์„ update๋œ y=0.025x+0.03y=0.025x+0.03์˜ ์„ ํ˜• ๋ชจ๋ธ์— ์ ์šฉํ–ˆ์„ ๋•Œ, ์ด์ œ๋Š” 0.455์˜ ๊ฐ’์œผ๋กœ 0.5๋ฏธ๋งŒ์˜ ๊ฐ’์ด ๋‚˜์˜จ๋‹ค.

์‹ค์ œ๋กœ 17์‹œ๊ฐ„์„ ๊ณต๋ถ€ํ•˜๊ณ  ํ•ฉ๊ฒฉํ•œ ํ•™์ƒ์ด์ง€๋งŒ, ์ € ๊ทธ๋ž˜ํ”„๋Œ€๋กœ ์ƒ๊ฐํ•œ๋‹ค๋ฉด ์‚ฌ์‹ค์ƒ ๋ถˆํ•ฉ๊ฒฉ์ด๋ผ๋Š” ์–˜๊ธฐ๋‹ค.
์ด๋ ‡๊ฒŒ Linear์„ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ์ฐธ ์–ต์šธํ•œ ์ƒํ™ฉ์ด ์—ฐ์ถœ๋˜๊ฒŒ ๋œ๋‹ค..o(Tใƒ˜To) (์ด๋Š” ์ œ๋Œ€๋กœ ๋œ ํ•™์Šต์ด๋ผ ๋ณผ ์ˆ˜ ์—†๋‹ค)

Linear Regression ์‚ฌ์šฉ์˜ ๋ฌธ์ œ์  2

๋ฐ์ดํ„ฐ์˜ ๋ฐ˜์˜๋˜ํ•œ ๋ฌธ์ œ์ง€๋งŒ ๋˜ ๋‹ค๋ฅธ ๋ฌธ์ œ์ ์ด ์žˆ๋‹ค.

์„ ํ˜• ํ•จ์ˆ˜๋ผ๋Š” ๊ฒƒ์€ y์ถ•์˜ ์–‘๊ณผ ์Œ์˜ ๋ฐฉํ–ฅ์œผ๋กœ ์‚ฌ์‹ค์ƒ ๋ฌดํ•œํ•˜๊ฒŒ ์ด์–ด์ ธ ์žˆ๋‹ค๋Š” ์ ์ด๋‹ค. (์ œํ•œ์ด ์—†๋‹ค)
y = 1x ๋ผ๋Š” ํ•จ์ˆ˜๊ฐ€ ์žˆ๋‹ค๋ฉด, x์— 100์„ ๋„ฃ์œผ๋ฉด, y๋Š” 100์ด๋˜๊ณ , 1000์„ ๋„ฃ์œผ๋ฉด 1000๊นŒ์ง€... y์˜ ๋ฒ”์œ„๊ฐ€ ๋ฌด๊ถ๋ฌด์ง„ํ•˜๋‹ค.

๊ทธ๋ž˜์„œ ์ด๊ฒŒ ๋ฌด์Šจ ๋ฌธ์ œ์ธ๊ฐ€?

y๋Š” 0๋˜๋Š” 1๋งŒ์„ ๊ฐ€์ ธ์•ผํ•˜๋Š” ์ด์ง„๋ถ„๋ฅ˜์—์„œ ์Œ์˜ ๋ฌดํ•œ๋Œ€, ์–‘์˜ ๋ฌดํ•œ๋Œ€๋กœ ์ถœ๋ ฅ๊ฐ’์ด ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์€ ์ถœ๋ ฅ์˜ ๋ฒ”์œ„๊ฐ€ ๋„ˆ๋ฌด๋‚˜ ๊ด‘๋ฒ”์œ„ ํ•ด์ง„๋‹ค๋Š” ๊ฒƒ์ด๊ณ  threshold ์ฆ‰, ์–ด๋””๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์ด์ˆ˜, ๋ถˆ์ด์ˆ˜๋กœ ํ•ด์•ผํ•˜๋Š”์ง€ ์ž„๊ณ„๊ฐ’์˜ ์ง€์ •ํ•˜๋Š” ๊ฒƒ ๋˜ํ•œ ๋„ˆ๋ฌด๋‚˜ ์–ด๋ ต๊ฒŒ ๋œ๋‹ค.

๋”ฐ๋ผ์„œ Logistic Function(Sigmoid Function)์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค!

Logistic Regression ํ•จ์ˆ˜

  • ํ•จ์ˆ˜ ๋ฐ ๊ทธ๋ž˜ํ”„์˜ ๊ฐœํ˜•
  • (๊ฒฐ๊ณผ ๊ฐ’ ฯƒ(z)\sigma(z)๊ฐ€ 0 ๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง„๋‹ค.)
  • ์ˆ˜์‹ (์„ ํ˜•ํšŒ๊ท€ ์ˆ˜์‹ ZZ๋ฅผ ๊ทธ๋Œ€๋กœ ๋ถ„์ž์˜ ์ž์—ฐ์ƒ์ˆ˜(ee)์˜ ์ง€์ˆ˜ ๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.)
    ์ด๋ฅผ ํ†ตํ•ด ์ถœ๋ ฅ(์˜ˆ์ธก๊ฐ’)์ด 0<H(x)H(x)< 1์‚ฌ์ด์— ์œ„์น˜ํ•˜๋„๋ก ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค!

    ๐ŸŽˆ ์ฐธ๊ณ 

    • ์ด๋Ÿฌํ•œ Logistic Regression์˜ (ZZ)๋กœ ๋“ค์–ด๊ฐ€๋Š” ์„ ํ˜•ํšŒ๊ท€ ์ˆ˜์‹์„ Affine Function ์ด๋ผ๊ณ ํ•œ๋‹ค.

Logistic Regression (Sigmoid ํ•จ์ˆ˜)์˜ ๊ฐœํ˜•

  • Weight์™€ Bias์— ๋”ฐ๋ฅธ ๊ฐœํ˜•์„ ์‚ดํŽด๋ณด๋กํ•˜์ž. ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

    H(x)=H(x)= 11+eโˆ’(wx+b)1 \over 1+e^{-(wx+b)}

  • ์‹์—์„œ์˜ WTXW^TX ์ฆ‰, (Z)(Z)๋ฅผ ํ’€์–ด์„œ ์ผ๋‹ค.

  • w๊ฐ€ ์ž‘์•„์งˆ์ˆ˜๋ก ์ ์  ๊ฐ๋„๊ฐ€ ๋‚ฎ์•„์ ธ ๋Š์Šจํ•œ ํ˜•ํƒœ์˜ sigmoidํ•จ์ˆ˜๊ฐ€ ๋˜๋ฉฐ, ์˜ค์ฐจ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ฒŒ ๋œ๋‹ค.
    ๋ฐ˜๋Œ€๋กœ w๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์˜ค์ฐจ๋Š” ๊ฐ์†Œํ•˜๊ฒŒ ๋œ๋‹ค.

  • b๋Š” ๊ฐ’์ด ๋„ˆ๋ฌด ์ปค์ง€๊ฑฐ๋‚˜, ๋„ˆ๋ฌด ์ž‘์•„์ง€๋Š” ๊ฒฝ์šฐ ์˜ค์ฐจ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ฒŒ ๋œ๋‹ค.

Cost function๊ณผ Loss function

๊ธฐ์กด์— ๊ณต๋ถ€ํ–ˆ๋˜ Cost function์€ ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.

  • ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ

์ด ์‹์„ Linearํ•œ ์ฆ‰, ์ผ์ฐจ๋ฐฉ์ •์‹ H(x)=WTXH(x) = W^TX ๋Œ€ํ•ด์„œ ์ ์šฉํ•œ๋‹ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์˜ค์ฐจ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” Cost Function์ด ๊ทธ๋ ค์ง„๋‹ค.

  • ์ผ์ฐจ๋ฐฉ์ •์‹(์ง์„ )์— ๋Œ€ํ•œ ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ์˜ ๊ทธ๋ž˜ํ”„
    ์ด ๋ถ€๋ถ„์ด ์ž˜ ์ดํ•ด๊ฐ€ ๋˜์ง€ ์•Š๋Š”๋‹ค๋ฉด ๋‹ค์‹œ part06 - ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•(Linear ์˜ˆ์ œ)๋ฅผ ์ฝ์–ด๋ณด๋ฉด ๋œ๋‹ค.

ํ•˜์ง€๋งŒ, ์ด๋ฅผ Linearํ•˜์ง€์•Š์€, Sigmoidํ•จ์ˆ˜๊ฐ€ H(X)H(X)๋กœ ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ(MSE)์˜ ์‹์— ๋“ค์–ด๊ฐ€๊ฒŒ๋˜๋ฉด Cost Function์€ ์–ด๋–ป๊ฒŒ ๋‚˜์˜ฌ๊นŒ?

์ด๋Ÿฌํ•œ ๊ทธ๋ž˜ํ”„๊ฐ€ ๋‚˜์˜จ๋‹ค!

  • Sigmoid์— ๋Œ€ํ•œ ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ์˜ ๊ทธ๋ž˜ํ”„(์˜ˆ์‹œ)

ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ(MSE) ์‚ฌ์šฉ์˜ ๋ฌธ์ œ์ 

ํ•˜์ง€๋งŒ, ์ด๋Š” ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์ˆ˜ํ–‰ํ•˜๋‹ค๋ณด๋ฉด ์˜ค์ฐจ์˜ ์‹œ์ž‘ํ•˜๋Š” ์œ„์น˜์— ๋”ฐ๋ผ์„œ ์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ์ง€์—ญ์ตœ์†Œํ•ด์— ๋น ์งˆ ์ˆ˜ ์žˆ๋‹ค.

์ง€์—ญ์ตœ์†Œํ•ด : ์‹ค์ œ ์ตœ์†Œ ์˜ค์ฐจ๋Š” ์ €~์•„๋ž˜ ์žˆ์ง€๋งŒ, ๋‹ค๋ฅธ ๊ตด๊ณก์˜ ๋ ๋ถ€๋ถ„์„ ์ตœ์†Œ ์˜ค์ฐจ๋ผ๊ณ  ์ƒ๊ฐํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ.

๋”ฐ๋ผ์„œ, ์šฐ๋ฆฌ๋Š” Sigmoid๋ฅผ ์ž˜ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์˜ค์ฐจ ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค์–ด์•ผํ•œ๋‹ค.

MSE์•ผ ์ž˜๊ฐ€! ๐Ÿ‘‹

๋กœ๊ทธ ํ•จ์ˆ˜

์ƒˆ๋กœ์šด ์˜ค์ฐจ ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋ฅผ ๋‹ค์‹œ ์‚ดํŽด๋ณด์ž.

์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ํŠน์ง•์€ y๊ฐ’์ด 0๊ณผ 1์‚ฌ์ด๋ผ๋Š” ์ ์ด๋‹ค.

์ฆ‰, ์‹ค์ œ ๊ฐ’(๊ฒฐ๊ณผyy)์ด 1(true)์ผ ๋•Œ, 0(false)์— ๊ฐ€๊นŒ์›Œ ์งˆ์ˆ˜๋ก ์˜ค์ฐจ๊ฐ€ ์ฆ๊ฐ€ํ•  ๊ฒƒ์ด๊ณ ,
๋ฐ˜๋Œ€๋กœ ์‹ค์ œ ๊ฐ’(๊ฒฐ๊ณผyy)์ด 0(false)์ผ ๋•Œ, 1(true)์— ๊ฐ€๊นŒ์›Œ ์งˆ์ˆ˜๋ก ์˜ค์ฐจ๊ฐ€ ์ฆ๊ฐ€ํ•  ๊ฒƒ์ด๋‹ค.

์ด ํŠน์ง•์„ ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด ๋ฌด์—‡์ผ๊นŒ?

๋ฐ”๋กœ ๋กœ๊ทธํ•จ์ˆ˜!

๋กœ๊ทธํ•จ์ˆ˜๋กœ Cost function(๋น„์šฉ ํ•จ์ˆ˜)๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.
์ฐธ์ผ๋•Œ์™€ ๊ฑฐ์ง“์ผ ๋•Œ๋ฅผ ๋”ฐ๋กœ ๋ถ„๋ฆฌํ•ด์„œ ๊ทธ๋ ค์ง„๋‹ค.

  • Convex logistic regression cost function
  • ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๊ฐ’์ด ์ฐธ(1)์ธ ๊ฒฝ์šฐ (์ขŒ) : ๊ฑฐ์ง“(0)์˜ ๊ฐ’์— xx์˜ ๊ฐ’์ด ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก ์˜ค์ฐจ(y)์˜ ๊ฐ’์€ ์ฆ๊ฐ€ํ•œ๋‹ค. (๋ฐ˜๋Œ€๋กœ ์ฐธ(1)์— ๊ฐ€๊นŒ์›Œ์ง€๋ฉด ์˜ค์ฐจ๊ฐ€ ๊ฐ์†Œ)
  • ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๊ฐ’์ด ๊ฑฐ์ง“(0)์ธ ๊ฒฝ์šฐ (์šฐ) : ์ฐธ(1)์˜ ๊ฐ’์— xx์˜ ๊ฐ’์ด ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก ์˜ค์ฐจ(y)์˜ ๊ฐ’์€ ์ฆ๊ฐ€ํ•œ๋‹ค. (๋ฐ˜๋Œ€๋กœ ๊ฑฐ์ง“(0)์— ๊ฐ€๊นŒ์›Œ์ง€๋ฉด ์˜ค์ฐจ๊ฐ€ ๊ฐ์†Œ)

์–ด๋–ค๊ฐ€? ๋กœ๊ทธ๋กœ ํ‘œํ˜„ํ•˜๋‹ˆ ์•„๊นŒ ๋งํ–ˆ๋˜ sigmoid์˜ ํŠน์ง•์„ ์ž˜ ๋ฐ˜์˜ํ•˜์ง€ ์•Š์•˜๋Š”๊ฐ€?

  • ๋ฐฉ๊ธˆ๋ดค๋˜ ํŠน์ง•

(์ตœ์ข…) Cost function for logistic regression

์ฐธ, ๊ฑฐ์ง“ ๋‘๊ฐœ๋กœ ๋ถ„๋ฆฌํ•ด์„œ Cost function์„ ์‚ฌ์šฉํ•˜๊ธฐ์—๋Š” ์—ฌ๊ฐ„ ๋ถˆํŽธํ•œ ์ผ์ด ์•„๋‹ˆ๋‹ค.
๋”ฐ๋ผ์„œ ํ•ด๋‹น ํ•จ์ˆ˜ 2๊ฐœ๋ฅผ ์ฐธ/๊ฑฐ์ง“ ๋‘˜ ๋‹ค ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ์ณ๋ณด๋„๋ก ํ•˜์ž.

ํ•ฉ์น˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋œ๋‹ค.

์ด๋ ‡๊ฒŒ ํ•ฉ์ณ์ง„ cost function์„ Binary Cross Entrop ๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

Gradient Descent ๊ณผ์ •

์ƒˆ๋กœ์šด cost function(Binary Cross Entrop)์„ ์–ป์—ˆ์œผ๋‹ˆ ์ด์ œ, Gradient Dscent๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•ด์„œ ์ตœ์†Œ์˜ ์˜ค์ฐจ๋ฅผ ๊ตฌํ•ด๋ณด์ž!

Gradient Descent๋ฅผ ์–ด๋–ป๊ฒŒ ์ˆ˜ํ–‰ ํ–ˆ๋Š”๊ฐ€?
๋ฐ”๋กœ ํ™•์ธํ•ด๋ณด๋„๋ก ํ•˜์ž.

  1. cost function์„ ํ˜„์žฌ(w,bw,b)๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๊ฐ๊ฐ ํŽธ๋ฏธ๋ถ„
  2. ๋ฏธ๋ถ„์„ ํ†ตํ•ด ์–ป์€ (๊ธฐ์šธ๊ธฐ ๊ฐ’ x lr)๋ฅผ ๊ธฐ์กด w,bw, b์—์„œ ๋นผ์ค€๋‹ค.

    ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์ด๋ฏ€๋กœ, ์‹์ด ์กฐ๊ธˆ ๋ณต์žกํ•ด์กŒ์„ ๋ฟ. ๊ธฐ์กด Linear์™€ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ํ•˜๋˜ ๋ฐฉ์‹์ด ๋™์ผํ•˜๋‹ค.

์ตœ์ข… ์ •๋ฆฌ

๋งˆ์ง€๋ง‰์œผ๋กœ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„์˜ ๊ณผ์ •์„ ์ตœ์ข…์ ์œผ๋กœ ์ •๋ฆฌํ•ด๋ณด๊ณ  ๋๋‚ด๋„๋ก ํ•˜์ž.

1. ์„ ํ˜• ํšŒ๊ท€์—์„œ ์ •์˜๋˜๋Š” ์ผ์ฐจ๋ฐฉ์ •์‹์„ Affine function์œผ๋กœ ํ™œ์šฉ Z=WTXZ = W^TX
2. Logistic function์„ ์ •์˜ (sigmoid ํ•จ์ˆ˜์˜ ZZ๊ฐ’์— Affine function WTXW^TX๋ฅผ ๋„ฃ์Œ)
3. ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„์— ๋งž๋Š” Cost Function์ธ Cross Entropy Loss(BCE)๋ฅผ ์ •์˜
4. BCE๋ฅผ ํŽธ๋ฏธ๋ถ„(w,bw, b ๊ฐ๊ฐ)ํ•œ ๊ฐ’์— ์ ์ ˆํ•œ lr๋ฅผ ๊ณฑํ•ด ๋นผ์คŒ์œผ๋กœ ์จ, Gradient Desent๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค.

๊ณ ์ƒํ–ˆ๋‹ค! ๋‚ด๊ฐ€!

profile
๋ถ‰์€ ๋ฐฐ ์˜ค์ƒ‰ ๋”ฑ๋‹ค๊ตฌ๋ฆฌ ๊ฐœ๋ฐœ์ž ๐ŸฆƒCloud & DevOps

0๊ฐœ์˜ ๋Œ“๊ธ€