Machine Learning 2

๊น€์€๋น„ยท2021๋…„ 9์›” 23์ผ
0

Machine Learning

๋ชฉ๋ก ๋ณด๊ธฐ
2/6
post-thumbnail

> ์ด ๊ธ€์€ ์Šคํƒ ํผ๋“œ๋Œ€ํ•™๊ต Andrew Ng ๊ต์ˆ˜๋‹˜์˜ ๊ฐ•์˜๋ฅผ ์ˆ˜๊ฐ•ํ•œ ๊ฒƒ์„ ํ† ๋Œ€๋กœ ์ž‘์„ฑํ•œ ๊ธ€์ž…๋‹ˆ๋‹ค

๐Ÿ“Œ Multivariate Linear Regression

๋‹ค๋ณ€๋Ÿ‰ ์„ ํ˜• ํšŒ๊ท€

  • ์•ž์—์„œ๋Š” ํ•˜๋‚˜์˜ X๋กœ Y๋ฅผ ์˜ˆ์ธกํ•จ
    But, ์‹ค์ œ ํ˜„์‹ค์—์„œ๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ X๋กœ Y๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒฝ์šฐ์˜ ๋ฌธ์ œ๊ฐ€ ๋Œ€๋ถ€๋ถ„

    • ํ•œ ๊ฐœ์˜ X๋กœ ์ด๋ฃจ์–ด์ง„ ์„ ํ˜•ํšŒ๊ท€์˜ ๊ฐ€์„คํ•จ์ˆ˜

    • ์—ฌ๋Ÿฌ ๊ฐœ์˜ X๋กœ ์ด๋ฃจ์–ด์ง„ ์„ ํ˜•ํšŒ๊ท€์˜ ๊ฐ€์„คํ•จ์ˆ˜

    • ๋‘ ํ–‰๋ ฌ์˜ ๊ณฑ์œผ๋กœ ๋‚˜ํƒ€๋ƒ„ ๊ฐ€์„คํ•จ์ˆ˜

    • ๐Ÿ’ก ์œ„์˜ ์‹๋“ค์„ ๋ณด๋ฉด X๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ์ผ ๋•Œ์™€ X๊ฐ€ ํ•˜๋‚˜์ผ ๋•Œ์˜ ์‹์ด ๊ฐ™์€ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ด๋Š” ๋‘ ๋ฌธ์ œ ๋ชจ๋‘ ๊ฐ™์€ ์ ‘๊ทผ๋ฐฉ์‹์„ ์‚ฌ์šฉ ํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•จ

๐Ÿ“Œ Gradient Descent for Multiple Variables

๋‹ค๋ณ€๋Ÿ‰ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•

  • ๋‹ค๋ณ€๋Ÿ‰ ์„ ํ˜• ํšŒ๊ท€์™€ ๊ฒฐ๊ณผ๊ฐ€ ๊ฐ™์Œ


    • ๐Ÿ’ก ์œ„์˜ ์‹๋“ค์„ ๋ณด๋ฉด ฮธ๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ์ผ ๋•Œ์™€ ฮธ๊ฐ€ ํ•˜๋‚˜์ผ ๋•Œ์˜ ์‹์ด ๊ฐ™์€ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ด๋Š” ๋‘ ๋ฌธ์ œ ๋ชจ๋‘ ๊ฐ™์€ ์ ‘๊ทผ๋ฐฉ์‹์„ ์‚ฌ์šฉ ํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•จ

๐Ÿ“Œ Feature Scaling

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

  • Feature๋“ค์˜ ํฌ๊ธฐ์™€ ๋ฒ”์œ„๋ฅผ ์ •๊ทœํ™”์‹œ์ผœ์ฃผ๋Š” ๊ฒƒ
    • ์„œ๋กœ Scale์ด ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๋“ค์„ ๊ทธ๋Œ€๋กœ ์“ฐ๊ฒŒ๋˜๋ฉด ๋น„์šฉํ•จ์ˆ˜ J์— ๋Œ€ํ•œ ๋“ฑ๊ณ ์„ ์ด ์™ผ์ชฝ์ฒ˜๋Ÿผ ์–‡๊ฑฐ๋‚˜ ๋‘๊บผ์šด ํ˜•ํƒœ๋ฅผ ๋„๊ฒŒ ๋จ
      ๊ทธ๋Ÿฌ๋ฉด gradient๋Š” ์˜ค๋žœ ์‹œ๊ฐ„ ๋™์•ˆ ์•ž ๋’ค๋กœ ์ง„๋™ํ•˜๋ฉฐ, ์—„์ฒญ๋‚œ ์‹œ๊ฐ„์ด ์ง€๋‚˜๊ณ  ๋‚˜์„œ์•ผ ์ตœ์†Œ๊ฐ’์— ๋„๋‹ฌํ•จ
    • ํ•˜์ง€๋งŒ feature๋“ค์„ feature๋“ค์ด ๊ฐ€์ง„ ์ตœ๋Œ€๊ฐ’์œผ๋กœ ๋‚˜๋ˆˆ๋‹ค๋ฉด feature๋“ค์˜ ๋ฒ”์œ„๊ฐ€ 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์— ์˜ค๋ฅธ์ชฝ์ฒ˜๋Ÿผ ๊ท ํ˜•์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ฐ”๋€œ
      ๊ทธ๋Ÿฌ๋ฉด gradient๋Š” ์ข€ ๋” ๋น ๋ฅด๊ฒŒ ์ตœ์†Œ๊ฐ’์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ์Œ
  • how to mean normalization
    • [ x - ํ‰๊ท (Avg) / x Max - x Min ] ์ด ์‹์„ ์ด์šฉํ•˜์—ฌ ๊ทผ์‚ฌํ™”๋ฅผ ์ง„ํ–‰ํ•˜๋ฉด,
      ๋ชจ๋“  feature๋“ค์ด ์œ„์™€๊ฐ™ ๊ฐ’์„ ๋„๊ฒŒ ๋จ

๐Ÿ“Œ Learning Rate

ฮฑ (์•ŒํŒŒ)

  • ฮฑ ๊ฐ’์ด ์ปค์ง€๋ฉด ์ปค์งˆ์ˆ˜๋ก overshooting์ด ์ผ์–ด๋‚˜ ์ตœ์†Œ์ ์„ ์ฐพ์ง€ ๋ชปํ•จ

    • ฮฑ ๊ฐ’์„ ์ž˜๋ชป ์„ ํƒํ•  ๊ฒฝ์šฐ ์œ„์™€ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ฒŒ๋จ

      • ์™ผ์ชฝ ์œ„์˜ ๊ทธ๋ž˜ํ”„์ฒ˜๋Ÿผ ๋„ˆ๋ฌด ํฐ ฮฑ ๊ฐ’์„ ์„ ํƒํ•˜๋ฉด ์ตœ์†Œ์ ์— ๋„๋‹ฌํ•˜์ง€ ๋ชปํ•˜๊ณ  ๊ณ„์† ์ฆ๊ฐ€ํ•จ
      • ์™ผ์ชฝ ์•„๋ž˜์˜ ๊ทธ๋ž˜ํ”„์ฒ˜๋Ÿผ ์ถฉ๋ถ„ํžˆ ์ž‘์ง€ ์•Š์€ ฮฑ๊ฐ’์„ ์„ ํƒํ•˜๋ฉด ์ตœ์†Œ์ ์„ ์ฐพ์ง€ ๋ชปํ•จ
      • ์˜ค๋ฅธ์ชฝ ๊ทธ๋ž˜ํ”„์ฒ˜๋Ÿผ ์ถฉ๋ถ„ํžˆ ์ž‘์ง€ ์•Š์€ ฮฑ ๊ฐ’์„ ์„ ํƒํ•˜๋ฉด overshooting์ด ์ผ์–ด๋‚จ

      ๋”ฐ๋ผ์„œ ์ตœ์†Œ์ ์„ ์ฐพ๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ ์ ˆํ•œ ฮฑ (Learning Rate)๊ฐ’์„ ์„ ํƒํ•ด์•ผํ•จ

  • ํ•˜์ง€๋งŒ ์ ์ ˆํ•œ Learning Rate๋ฅผ ์ฐพ๋Š” ๊ณต์‹์€ ์—†์Œ

    • ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— "0.001 โˆ’> 0.003 โˆ’> 0.01 โˆ’> 0.03 โˆ’> 0.1 โˆ’> 0.3 โˆ’> 1" ์ด๋ ‡๊ฒŒ Learning Rate๋ฅผ ์ž‘์€ ์ˆ˜๋ถ€ํ„ฐ ํ‚ค์›Œ๋‚˜๊ฐ€๋ฉฐ ๋น„์šฉ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉฐ ์ ์ ˆํ•œ ๊ฐ’์„ ์ง์ ‘ ์ฐพ๋Š” ๋…ธ๊ฐ€๋‹ค๋ฅผ ํ•ด์•ผํ•จ

๐Ÿ“Œ Features

  • Features๋ฅผ ์ค„์ด์ž
    • ์ง‘์˜ ๊ฐ€๊ฒฉ์„ ๊ตฌํ•˜๋Š” ์„ ํ˜•ํšŒ๊ท€ ๋ฌธ์ œ์—์„œ ์ง‘์˜ Feature๊ฐ€ ์ง‘์˜ ๊ฐ€๋กœ๊ธธ์ด, ์ง‘์˜ ์„ธ๋กœ๊ธธ์ด ๋‘๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋ฉด, ํ•จ์ˆ˜ h๋Š” ์œ„์™€ ๊ฐ™์ด ๋ณ€์ˆ˜๊ฐ€ ๋‘ ๊ฐœ๋กœ ํ‘œํ˜„์ด ๋จ
      ํ•˜์ง€๋งŒ ๋‘๊ฐœ์˜ Features๊ฐ€ ์˜๋ฏธํ•˜๋Š” ์ •๋ณด๋ฅผ ์ƒ๊ฐํ•ด๋ณด๋ฉด, ์ด๋Š” ๋„“์ด๋ผ๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Œ, ์ด๋ฅผ ์ด์šฉํ•˜๋ฉด ํ•จ์ˆ˜ h์˜ ๋ณ€์ˆ˜๋ฅผ ํ•˜๋‚˜๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Œ

๐Ÿ“Œ Polynomial Regression

๋‹คํ•ญํšŒ๊ท€

  • Features Scaling์„ ์ž˜ํ•˜์ž
      • 1์ฐจ ์‹์€ ์ง‘ ๊ฐ’ data set์ธ xํ‘œ์‹œ๋“ค์„ ํ‘œํ˜„ํ•˜๊ธฐ ์–ด๋ ค์›€
      • ํŒŒ๋ž€์ƒ‰ ์„  ์ฒ˜๋Ÿผ 2์ฐจ์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์€ ์ง‘์˜ ํฌ๊ธฐ๋Š” ์ปค์ง€๋Š” ๋ฐ˜๋ฉด ๊ฐ€๊ฒฉ์€ ์ ์  ๋–จ์–ด์งˆ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ์˜ณ์ง€ ์•Š์Œ
      • ์—ฐ๋‘์ƒ‰ ์„  ์ฒ˜๋Ÿผ 3์ฐจ์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•จ

      Features์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•˜์˜€์œผ๋ฏ€๋กœ Features Scaling๋ฅผ ์ž˜ ํ•ด์•ผํ•จ

  • EX
    • ์œ„์™€ ๊ฐ™์ด Features๋ฅผ ์ž˜ ์„ ํƒํ•˜๋ฉด ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผœ ๋ณด๋‹ค ํŽธ๋ฆฌํ•˜๊ฒŒ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ ํ•  ์ˆ˜ ์žˆ์Œ

    ๐Ÿ“Œ Normal Equation

    ์ •๊ทœ๋ฐฉ์ •์‹

  • ์ตœ์ ์˜ ฮธ๊ฐ’์„ ์ฐพ๊ธฐ ์ˆ˜์›”ํ•œ ๋ฐฉ๋ฒ•

    • ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜๋Š” Gradient Descent ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๋‹ฌ๋ฆฌ ฮธ๋ฅผ ๋ถ„์„์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ตœ์†Œ์ ์„ ๋‹จ ํ•œ๋ฒˆ์˜ ๊ณ„์‚ฐ์œผ๋กœ ์–ป์„ ์ˆ˜ ์žˆ์Œ
  • Normal Equation

    + ์—ญํ–‰๋ ฌ์ด ์—†๋Š” ๊ฒฝ์šฐ๋Š” ๋Œ€์ฒด๋กœ ๋‘๊ฐ€์ง€ ๊ฒฝ์šฐ์ž„
    1) ๋ถˆํ•„์š”ํ•œ Features๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋•Œ
    2) ๋„ˆ๋ฌด ๋งŽ์€ Features๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋•Œ (์˜ˆ:mโ‰คn).
    ๋”ฐ๋ผ์„œ ์—ญํ–‰๋ ฌ์ด ์—†๋Š” ๊ฒฝ์šฐ ๋ถˆํ•„์š”ํ•œ Features๋ฅผ ์ง€์šฐ๊ฑฐ๋‚˜ ๊ฐœ์ˆ˜๋ฅผ ์ค„์ด๋ฉด ๋จ
profile
๋ ˆ๋ฒจ์—…์ค‘...

0๊ฐœ์˜ ๋Œ“๊ธ€