๐Ÿšฉ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ดˆ - part16. Softmax Regressin ๊ณผ ์›-ํ•ซ ์ธ์ฝ”๋”ฉ

vincaยท2022๋…„ 12์›” 14์ผ
0

๐ŸŒ“ AI/DL - theory

๋ชฉ๋ก ๋ณด๊ธฐ
17/24
post-thumbnail

Introduction

๋‹ค์ค‘๋ถ„๋ฅ˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” Softmax ํ•จ์ˆ˜์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด์ž.

ํŠน์ง•์˜ ์œ ํ˜•

ํŠน์ง•์˜ ์œ ํ˜•๋ถ€ํ„ฐ ์‚ดํŽด๋ณด๋„๋ก ํ•œ๋‹ค.

ํŠน์ง•์˜ ์œ ํ˜•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด 3๊ฐ€์ง€๋กœ ๋ถ„๋ฅ˜๋œ๋‹ค.

Logistic regression ๋ณต์Šต

๊ธฐ์กด ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ฅผ ๋‹ค์‹œ ์‚ดํŽด๋ณด์ž.
์ด๋Š” ์ด์ง„ ๋ถ„๋ฅ˜๊ฐ€ ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•˜๋Š” ๋ชจ๋ธ์ด์˜€๋‹ค.

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ์ˆ˜์‹์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ์‹œ๊ทธ๋ชจ์ด๋“œ์˜ ์˜ค์ฐจ๋ฅผ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ ๋น„์šฉํ•จ์ˆ˜๋Š” BCE๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

์ด์ง„ ๋ถ„๋ฅ˜๊ฐ€ ์•„๋‹Œ ๋ฌธ์ œ

ํ•™์ ์ด A, B, C๋กœ ์ด๋ฃจ์–ด์ง€๋Š” ๋ฌธ์ œ๋ฅผ ์‚ดํŽด๋ณด์ž.

์Œ..๊ณต๋ถ€์‹œ๊ฐ„์ด 30์‹œ๊ฐ„์ด๊ณ  ๊ฒฐ์„์ผ์ด 2๋ผ๋ฉด A๋ฅผ ๋ฐ›๊ณ  ๊ณต๋ถ€์‹œ๊ฐ„ 40์‹œ๊ฐ„์— ๊ฒฐ์„์ผ์ด 0์ด๋ผ๋ฉด A๋ฅผ ๋ฐ›๋Š” ๊ฒƒ์ด ๋ณด์ธ๋‹ค..
30์‹œ๊ฐ„ ์นœ๊ตฌ๋Š” ๋งค์šฐ ๋˜‘๋˜‘ํ•ด๋ณด์ด๋‹ˆ ํŒจ์Šค..๋ณธ์ธ์˜ ์ƒํ™ฉ์— ๋น—๋Œ€์–ด ๋ดค์„ ๋•Œ, ํ˜„์žฌ ๊ฒฐ์„์ด 0์ด๋ฏ€๋กœ 40์‹œ๊ฐ„์„ ๊ณต๋ถ€ํ•œ๋‹ค๋ฉด ๋”ฅ๋Ÿฌ๋‹์—์„œ A๋ฅผ ๋งž์„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ธ๊ฐ€..?


ํ•˜๋‚˜์˜ Linearํ•œ ์ด์ง„๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋กœ๋Š” ์ ˆ๋Œ€ ์ œ๋Œ€๋กœ ๋œ ๋ถ„๋ฅ˜๋ฅผ ํ•  ์ˆ˜ ์—†์„ ๊ฒƒ์„ ๋ณด์ธ๋‹ค.

์‚ฌ์กฑ์„ ์ง‘์–ด์น˜์šฐ๊ณ  ๋‹ค์‹œ ๋ฌธ์ œ๋กœ ๋Œ์•„์™€๋ณด์ž.

sigmoid ํ•จ์ˆ˜๋Š” 3๊ฐœ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒฐ๊ณผ์˜ ๊ฐ’์ด ๊ฐ๊ฐ 0~1์˜ ๊ฐ’ ์‚ฌ์ด๋กœ ๋‚˜์˜ฌ ๊ฒƒ์ด๋‹ค.
A, B, C๊ฐ€ ์žˆ์„ ๋•Œ A์ผ ํ™•๋ฅ  0.8 / B 0.6 / C 0.4์™€ ๊ฐ™์ด ๋ง์ด๋‹ค.

์ด๋ฅผ softmax์‹์œผ๋กœ ๋ณ€๊ฒฝํ•œ๋‹ค๋ฉด ์ด๋“ค์„ ์ „๋ถ€ ๋”ํ–ˆ์„ ๋•Œ์˜ ๊ฐ’์ด 1์ด ๋˜๋„๋ก ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค. A 0.4 / B 0.33 / C 0.22 ์™€ ๊ฐ™์ด ๋ง์ด๋‹ค.

์ดํ›„ ํ•œ๋ฒˆ์˜ ์ž‘์—…์„ ๋” ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ด๋ ‡๊ฒŒํ•ด์„œ A๋ผ๊ณ  ํŒ๋ณ„๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํŒ๋ณ„์„ ์œ„ํ•ด์„œ๋Š” ์›ํ•ซ์ธ์ฝ”๋”ฉ์„ ํ•ด ์ค„ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

์›-ํ•ซ ์ธ์ฝ”๋”ฉ

์›ํ•ซ์ธ์ฝ”๋”ฉ์ด๋ž€ ์šฐ๋ฆฌ๊ฐ€ ๊ฐœ, ๋Š‘๋Œ€, ๊ณ ์–‘์ด, ํ˜ธ๋ž‘์ด๋ฅผ ๋ถ„๋ฅ˜ํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž.
์ปดํ“จํ„ฐ์—๊ฒŒ ๋‹ค์งœ๊ณ ์งœ "๊ฐœ" ๋ผ๋Š” ํ•œ๊ธ€ ๋‹จ์–ด๋ฅผ ์ž…๋ ฅํ•˜๊ณ , A, B, C ์ˆซ์ž ๊ฐ’์„ ๋ณด๊ณ  ์ด๋ฅผ A์ผ์ง€ B์ผ์ง€ C์ผ์ง€ ๋งž์ถฐ๋ณด๋ผ๊ณ  ํ•œ๋‹ค๋ฉด 0๊ณผ1์˜ ์„ธ์ƒ์† ์ปดํ“จํ„ฐ๋Š” ์ด๋ฅผ ์ดํ•ดํ•˜์ง€ ๋ชปํ•  ๊ฒƒ์ด๋‹ค.

๋”ฐ๋ผ์„œ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์–ธ์–ด๋กœ, ์ฆ‰ ์‰ฝ๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์–ธ์–ด(์ˆซ์ž)๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€๊ฒฝํ•ด์ฃผ๋Š” ๊ฒƒ์ด ํ•„์š”ํ•˜๋‹ค.

์ด๋Ÿฌํ•œ ๊ณผ์ •์„ ๋ฐ”๋กœ ์›ํ•ซ์ธ์ฝ”๋”ฉ์ด๋ผ๊ณ  ํ•œ๋‹ค.

๊ฐœ = [1 0 0 0]
๋Š‘๋Œ€ = [0 1 0 0]
๊ณ ์–‘์ด = [0 0 1 0]
ํ˜ธ๋ž‘์ด = [0 0 0 1]
ex.) ๋ฐ์ดํ„ฐxx๊ฐ€ A 0.4 / B 0.33 / C 0.12 / D 0.10 ์ผ๋•Œ, ์›ํ•ซ ์ธ์ฝ”๋”ฉ ์ˆ˜ํ–‰๊ฒฐ๊ณผ๋Š” [1 0 0 0]์œผ๋กœ ์ตœ์ข…์ ์œผ๋กœ ๊ฐœ๋กœ ํŒ๋ช…๋‚œ๋‹ค.

์ด๋Ÿฌํ•œ ์›ํ•ซ ์ธ์ฝ”๋”ฉ๋œ ์ƒํƒœ๊ฐ€ ๋˜์•ผ์ง€๋งŒ ์ •๋‹ต์„ ๋งž์ท„๋Š”์ง€, ๋ชป ๋งž์ท„๋Š”์ง€๋ฅผ ํŒ๋‹จํ•˜์—ฌ ์˜ค์ฐจ๋ฅผ ๊ณ„์‚ฐ ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.
(์ •๋‹ต ๋ฐ์ดํ„ฐ๊ฐ€ ์ด๋ฏธ ์›ํ•ซ ๋˜์–ด์žˆ์œผ๋ฏ€๋กœ ์›ํ•ซ ๋˜์ง€์•Š์€ Lawํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ค˜์„œ๋Š” ํŒ๋‹จ์„ ๋ชปํ•œ๋‹ค๋Š” ๋œป)

์›-ํ•ซ ์ธ์ฝ”๋”ฉ์˜ ํ•œ๊ณ„?

  • ์›ํ•ซ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋˜๋ฏ€๋กœ ์›-ํ•ซ ์ธ์ฝ”๋”ฉ์ด๋ผ๊ณ  ํ•˜๊ฒŒ๋˜๋Š”๋ฐ, ๋ถ„๋ฅ˜ํ•ด์•ผํ•˜๋Š” ํด๋ž˜์Šค์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์„์ˆ˜๋ก ์ฐจ์›์ด N๊ฐœ๋กœ ๊ณ„์†ํ•ด์„œ ๋Š˜์–ด๋‚˜๊ฒŒ๋œ๋‹ค.100๊ฐœ ํด๋ž˜์Šค๋ผ๋ฉด..100์ฐจ์›...๐ŸŽญ
  • ๋˜ํ•œ, ๊ฐœ์™€ ๋Š‘๋Œ€๋Š” ๊ฐ™์€ ๊ฐœ๊ณผ ๋™๋ฌผ์ด๊ณ , ๊ณ ์–‘์ด์™€ ํ˜ธ๋ž‘์ด๋Š” ๊ฐ™์€ ๊ณ ์–‘์ด๊ณผ ๋™๋ฌผ์ด๋‹ค. ํ•˜์ง€๋งŒ ์›ํ•ซ ์ธ์ฝ”๋”ฉ์„ ํ•˜๊ฒŒ๋˜๋ฉด ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ์— ์—ฐ๊ด€์„ฑ์ด ์žˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ด๋ฅผ ๋ฐ์ดํ„ฐ ์ƒ์—์„œ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋œ๋‹ค.

Loss Function๊ณผ Cost Function

cost๋ผ๊ณ  ์ ํ˜€์žˆ์ง€๋งŒ, ํ•˜๋‚˜์˜ ๊ฐ’์— ๋Œ€ํ•ด์„œ ํ˜„์žฌ ์˜ค์ฐจ๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด๋ฏ€๋กœ Loss Function์— ๊ฐ€๊น๋‹ค.

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ฅผ ์ˆ˜ํ–‰ํ• ๋•Œ BCE๋ฅผ ๋น„์šฉํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค.
๋ณ„๋ฐ˜ ๋‹ค๋ฅด์ง€์•Š๋‹ค. ๋‹จ์ˆœํžˆ ์•ž์˜ ์ด์ง„์„ ๋œปํ•˜๋Š” Binary๊ฐ€ ๋น ์กŒ์„ ๋ฟ์ด๋‹ค.
์‚ฌ์‹ค์ƒ Binary Cross์ˆ˜์‹์—์„œ 2๊ฐœ ํด๋ž˜์Šค ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ i๋ฅผ 2๋ฒˆ๋งŒ ์ˆ˜ํ–‰ํ•˜๋ฉด Binary Cross Entropy์˜ ์ˆ˜๊ธฐ๊ณผ ๋™์ผํ•˜๋‹ค๋Š” ๊ฒƒ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋น„์šฉํ•จ์ˆ˜๋Š” ๋”ฐ๋ผ์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• ์ˆ˜ํ–‰

์ด์ œ Gradinet Descent๋ฅผ ํ†ตํ•ด ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™” ์‹œ์ผœ๋ณด๋„๋ก ํ•˜์ž.


๊ธฐ์กด logisth regression๊ณผ ๋ณ„๋ฐ˜ ๋‹ค๋ฅด์ง€ ์•Š๋‹ค. w์— ๋Œ€ํ•ด์„œ ํŽธ๋ฏธ๋ถ„์„ ์ˆ˜ํ–‰ํ•˜๊ณ , ์ ์ ˆํ•œ lr๋ฅผ ๊ณฑํ•ด์„œ ๊ฐ’์„ ์—…๋ฐ์ดํŠธ ์‹œํ‚จ๋‹ค.

๋งŒ์•ฝ ์‹์„ ์™ธ์šฐ๋Š” ๊ฒƒ์ด ํ•„์š”ํ•˜๋‹ค๋ฉด ์ด ppt์˜ ์‹์„ ์™ธ์šฐ๋„๋กํ•˜์ž.

profile
๋ถ‰์€ ๋ฐฐ ์˜ค์ƒ‰ ๋”ฑ๋‹ค๊ตฌ๋ฆฌ ๊ฐœ๋ฐœ์ž ๐ŸฆƒCloud & DevOps

0๊ฐœ์˜ ๋Œ“๊ธ€