๐Ÿผ ์ธ๊ณต์ง€๋Šฅ, ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹ ๐Ÿผ

parkeuยท2022๋…„ 9์›” 19์ผ
0

ABC๋ถ€ํŠธ์บ ํ”„

๋ชฉ๋ก ๋ณด๊ธฐ
22/55

๐Ÿ”Ž ์ธ๊ณต์ง€๋Šฅ๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹์˜ ๊ด€๊ณ„

  • ์ธ๊ณต์ง€๋Šฅ ) ๋จธ์‹ ๋Ÿฌ๋‹ ) ๋”ฅ๋Ÿฌ๋‹
  • ์ธ๊ณต์ง€๋Šฅ : ํ•™์Šต, ์ธ์‹, ์ถ”์  ๋“ฑ ์‚ฌ๋žŒ์ด ํ•  ์ˆ˜ ์žˆ๋Š” ์ž‘์—…๊ณผ ํ•  ์ˆ˜ ์—†๋Š” ์ž‘์—…์„ ์ปดํ“จํ„ฐ๊ฐ€ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•จ
  • ๋จธ์‹ ๋Ÿฌ๋‹ : ๊ธฐ๊ณ„ํ•™์Šต
  • ๋”ฅ๋Ÿฌ๋‹ : ๊นŠ์€ ์‹ ๊ฒฝ๋ง

๐Ÿ–ฅ๏ธ ๋จธ์‹ ๋Ÿฌ๋‹(ML)

  • ๊ฒฝํ—˜์„ ํ†ตํ•ด ์ž๋™์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ์ปดํ“จํ„ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์—ฐ๊ตฌ
  • ์ปดํ“จํ„ฐ๊ฐ€ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๊ธฐ์ˆ  ๊ฐœ๋ฐœ
  • ๋ฐ์ดํ„ฐ์™€ ์ •๋‹ต์„ ์ž…๋ ฅํ•ด์คŒ์œผ๋กœ์จ ํŒจํ„ด์„ ํ•™์Šตํ•˜์—ฌ ๊ทœ์น™ ์ฐพ์•„๋‚ด ๋ชจ๋ธ ์ƒ์„ฑ
  • ๋ช…์‹œ์ ์ธ ํ”„๋กœ๊ทธ๋žจ์ด ์•„๋‹ˆ๋ผ ํ›ˆ๋ จ(training)

๐Ÿ–ฅ๏ธ ๋”ฅ๋Ÿฌ๋‹

  • ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํŠน์ •ํ•œ ํ•œ ๋ถ„์•ผ
  • ์—ฐ์†๋œ ์ธต์—์„œ ์ ์ง„์ ์œผ๋กœ ์˜๋ฏธ์žˆ๋Š” ํ‘œํ˜„์„ ๋ฐฐ์šฐ๋Š”๋ฐ ๊ฐ•์ 
  • ๊ธฐ๋ณธ์ธต์„ ๊ฒน๊ฒน์ด ์Œ“์•„์˜ฌ๋ ค ๊ตฌ์„ฑํ•œ ์‹ ๊ฒฝ๋ง์ด๋ผ๋Š” ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ‘œํ˜„์ธต ํ•™์Šต
  • ๋”ฅ๋Ÿฌ๋‹์˜ ํ•™์Šต : ์ฃผ์–ด์ง„ ์ž…๋ ฅ์„ ์ •ํ™•ํ•œ ํƒ€๊นƒ์— ๋งคํ•‘ํ•˜๊ธฐ ์œ„ํ•ด ์‹ ๊ฒฝ๋ง์˜ ๋ชจ๋“  ์ธต์— ์žˆ๋Š” ๊ฐ€์ค‘์น˜ ๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•จ

๐Ÿ–ฅ๏ธ scikit-learn

  • ์˜คํ”ˆ์†Œ์Šค
  • ํŒŒ์ด์ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ
  • numpy , SciPy ์‚ฌ์šฉ

๐Ÿ’ป ๋จธ์‹ ๋Ÿฌ๋‹ ํ”„๋กœ์„ธ์Šค

  • ๋ฌธ์ œ ์ •์˜ ๋ฐ ๋ฐ์ดํ„ฐ ์ค€๋น„ -> ํ•™์Šต -> ์ถ”๋ก  ๋ฐ ํ‰๊ฐ€ -> ... ๋ฐ์ดํ„ฐ ์ค€๋น„๋กœ ํ•™์Šตํ•˜๊ธฐ๋กœ etc.
  • ์ž˜ ๊ตฌ์ถ•๋œ ํ”„๋กœ์„ธ์Šค๊ฐ€ ๊ฒฐ๊ณผ์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ

๐Ÿ–Š๏ธ ๋ฌธ์ œ ์ •์˜ ๋ฐ ๋ฐ์ดํ„ฐ ์ค€๋น„

  • ์˜ฌ๋ฐ”๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐ€๊ธฐ ์œ„ํ•ด EDA(ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„) ์‹œ์ž‘
  • ๋ช…ํ™•ํ•œ ๋ฌธ์ œ ์ •์˜๊ฐ€ ์ค‘์š”!
  • ์บ๊ธ€์„ ํ™œ์šฉํ•˜์—ฌ ๋ชจ๋ธ ์„ ํƒ์— ์ฐธ๊ณ ํ•˜๊ธฐ
  • ๋ฐ์ดํ„ฐ ๊ด€ํ•œ ๊ณ ๋ฏผ ๋ฐ˜๋ณตํ•˜๊ธฐ

๐Ÿ“’ ํ•™์Šต

  • SOTA(state-of-the-art;์ตœ๊ณ ์˜ ์„ฑ๋Šฅ) ๋ชจ๋ธ ํ™œ์šฉ
  • ๋ชจ๋ธ ์„ ํƒ์€ ๋‚ด๋ถ€์š”์†Œ์™€ ์™ธ๋ถ€์š”์†Œ ๋ณตํ•ฉ์ ์œผ๋กœ ์กฐ์ •ํ•ด์•ผ ํ•จ
  • ๋ชจ๋ธ ์„ ํƒ ํ›„ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ • ๋‹จ๊ณ„ ํ•„์ˆ˜

๐Ÿ“‹ ์ถ”๋ก  ๋ฐ ํ‰๊ฐ€

  • ์ถ”๋ก  : ํ•™์Šต๋œ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ์ •๋‹ต์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ •๋‹ต์„ ๋งŒ๋“œ๋Š” ํ–‰์œ„

๐Ÿ“ฐ ์šฉ์–ด : ๋ฐ์ดํ„ฐ ์ค€๋น„

  • ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜•(Class Imbalance)
    ํด๋ž˜์Šค๊ฐ€ ๋ถˆ๊ท ํ˜•ํ•˜๊ฒŒ ๋ถ„ํฌ
    ์‚ฌ๋ก€ : ์€ํ–‰ ๊ฑฐ๋ž˜ ์‚ฌ๊ธฐ, ํฌ๊ท€ ์งˆ๋ณ‘, ๊ธฐ๊ณ„ ๋ถˆ๋Ÿ‰์Œ
    ์ด์ƒ ํƒ์ง€(Anomaly Detection)
  • ๊ณผ์†Œํ‘œ์ง‘๊ณผ ๊ณผ๋Œ€ํ‘œ์ง‘
    ๊ณผ์†Œํ‘œ์ง‘(UnderSampling) : ๋‹ค๋ฅธ ํด๋ž˜์Šค์— ๋น„ํ•ด ์ƒ๋Œ€์ ์œผ๋กœ ๋งŽ์ด ๋‚˜ํƒ€๋‚˜์žˆ๋Š” ํด๋ž˜์Šค์˜ ๊ฐœ์ˆ˜ ์ค„์ด๋Š” ๊ฒƒ, ๋ฐ์ดํ„ฐ๊ฐ€ ์ง„์งœ ๋งŽ์„ ๋•Œ ๊ฐ€๋Šฅ
    ๊ณผ๋Œ€ํ‘œ์ง‘(OverSampling) : ๊ฐœ์ˆ˜๊ฐ€ ์ ์€ ํด๋ž˜์Šค ๋ณต์ œ(SMOTE ๋“ฑ์˜ ๊ธฐ๋ฒ• ํ™œ์šฉ), ๊ณผ์†Œํ‘œ์ง‘๋ณด๋‹ค ๋งŽ์ด ์‚ฌ์šฉ๋จ
  • ํšŒ๊ท€(Regression)
    ์—ฌ๋Ÿฌ๊ฐœ์˜ ํŠน์ง•์„ ํ†ตํ•ด ์—ฐ์†์ ์ธ ์ˆซ์ž๋กœ ์ด๋ฃจ์–ด์ง„ ์ •๋‹ต ์˜ˆ์ธก
    0๊ณผ 1์„ ์˜ˆ์ธกํ•˜๋Š” ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€
    ์‚ฌ๋ก€ : ํ–„๋ฒ„๊ฑฐ ๊ฐ€๊ฒฉ, ์˜ํ™” ๊ด€๊ฐ ์ˆ˜, ์ถ•๊ตฌ ์„ ์ˆ˜ ์—ฐ๋ด‰, ์ฃผ์‹ ๊ฐ€๊ฒฉ ๋“ฑ
  • ๋ถ„๋ฅ˜(Classification)
    ๋ฏธ๋ฆฌ ์ •์˜๋œ ์—ฌ๋Ÿฌ ํด๋ž˜์Šค ์ค‘ ํ•˜๋‚˜ ์˜ˆ์ธก
    - ์ด์ง„๋ถ„๋ฅ˜(Binary Classification)
    - ๋‹ค์ค‘๋ถ„๋ฅ˜(Multi-class Classification)
    - ๋‹ค์ค‘ ๋ ˆ์ด๋ธ” ๋ถ„๋ฅ˜(Multi-label Classification)
    ์‚ฌ๋ก€ : ํ–„๋ฒ„๊ฑฐ ์ข…๋ฅ˜, ์ˆซ์ž ํŒ๋ณ„, ์–ผ๊ตด ์ธ์‹ ๋˜๋Š” ์ข…๋ฅ˜ ๊ตฌ๋ถ„ ๋“ฑ
  • ์› ํ•ซ ์ธ์ฝ”๋”ฉ(One-Hot Incoding)
    ํ•˜๋‚˜์˜ ํด๋ž˜์Šค๋งŒ 1์ด๊ณ  ๋‚˜๋จธ์ง€ ํด๋ž˜์Šค๋Š” ์ „๋ถ€ 0์ธ ์ธ์ฝ”๋”ฉ
  • ๊ต์ฐจ๊ฒ€์ฆ(Cross-Validation)
    ๋ชจ๋ธ์˜ ํƒ€๋‹น์„ฑ ๊ฒ€์ฆ(๊ณผ๋Œ€์ ํ•ฉ ๋ฐฉ์ง€)
    -> ํ•™์Šต ๋ฐ์ดํ„ฐ : ๋ชจ๋ธ ํ•™์Šต์— ์‚ฌ์šฉ
    -> ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ : ๋ชจ๋ธ์˜ ๊ฒ€์ฆ์„ ์œ„ํ•ด ์‚ฌ์šฉ, ์ฃผ๋กœ ํ•™์Šต ๋„์ค‘์— ์‚ฌ์šฉ
    -> ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ : ๋ชจ๋ธ์˜ ์ตœ์ข… ์„ฑ๋Šฅ ํ‰๊ฐ€์— ์‚ฌ์šฉ
    ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” ์ตœ์ข… ํ‰๊ฐ€ ์ด์ „์—๋Š” ์ ˆ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๋ฉด ์•ˆ๋จ

๐Ÿ“ฐ ์šฉ์–ด : ํ•™์Šตํ•˜๊ธฐ

  • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(Hyperparameter)
    ๊ฒฝํ—˜์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ์š”์†Œ
    ํ•™์Šต๋ฅ , ๋ฐฐ์น˜ ํฌ๊ธฐ, ์—ํญ ๋“ฑ
    ์ ํ•ฉํ•œ ๊ฐ’์„ ์ฐพ๊ธฐ ์œ„ํ•ด ๋ฐ˜๋ณต์ ์ธ ์‹คํ—˜๊ณผ ๋งŽ์€ ์‹œ๊ฐ„ ํˆฌ์ž๊ฐ€ ํ•„์ˆ˜-> ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹
  • ๋ฐฐ์น˜(Batch), ๋ฐฐ์น˜ํฌ๊ธฐ(Batch Size)
  • ์ง€๋„ ํ•™์Šต(Supervised Learning)
    ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ •๋‹ต ํฌํ•จ
    ํšŒ๊ท€, ๋ถ„๋ฅ˜
  • ๋น„์ง€๋„ ํ•™์Šต(UnSupervised Learning)
    ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ •๋‹ต์ด ํฌํ•จ๋˜์–ด ์žˆ์ง€ ์•Š์€ ๊ฒƒ
    ํด๋Ÿฌ์Šคํ„ฐ๋ง(Clustering)
  • ์ƒ์„ฑ๋ชจ๋ธ(Generative Model)
    ์‚ฌ๋ก€ : ํ–„๋ฒ„๊ฑฐ ์‚ฌ์ง„์„ ์ฃผ๊ณ  ๋ชจ๋ธ์—๊ฒŒ ๋‹ค์‹œ ํ–„๋ฒ„๊ฑฐ ์‚ฌ์ง„ ๊ทธ๋ ค๋ณด๋ผ๊ณ  ํ•˜๋Š” ๊ฒƒ
  • ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning)
    ์—์ด์ „ํŠธ๊ฐ€ ์ฃผ์–ด์ง„ ํ™˜๊ฒฝ์— ๋Œ€ํ•ด ์–ด๋– ํ•œ ํ–‰๋™์„ ๊ฒฐ์ •ํ•˜๊ณ  ์ด๋ฅผ ํ†ตํ•ด ์–ป๋Š” ๋ณด์ƒ์œผ๋กœ ํ•™์Šต
  • ๊ณผ๋Œ€์ ํ•ฉ(Overfitting)
    ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€ ๋ชปํ•˜๋Š” ๊ฒฐ๊ณผ
    ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์ˆœํžˆ ์™ธ์› ๋‹ค๊ณ  ํ‘œํ˜„
    ๋ชจ๋ธ์ด ๋ฌธ์ œ๋ฅผ ์ผ๋ฐ˜ํ™” ํ•˜์ง€ ๋ชปํ–ˆ์Œ
    - ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์–‘ํ•˜๊ฒŒ, ๋งŽ์ด ์ˆ˜์ง‘
    - ์ •๊ทœํ™”(Regularization)๋ฅผ ์‚ฌ์šฉ -> ๊ทœ์น™ ๋‹จ์ˆœํ•˜๊ฒŒ
    - ํŠธ๋ฆฌํ”Œ์น˜์ฆˆ๋ฒ„๊ฑฐ์™€ ๊ฐ™์€ ์ด์ƒ์น˜ ์ œ๊ฑฐ(๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์œผ๋ฉด ์ข‹์ง€์•Š์€ ๋ฐฉ๋ฒ•)
  • ๊ณผ์†Œ์ ํ•ฉ(Underfitting)
    ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•˜์ง€ ์•Š์•„์„œ ๋ชจ๋“  ์ธก๋ฉด์—์„œ ์ข‹์ง€์•Š์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๊ฒฐ๊ณผ
    ๋ชจ๋ธ์€ ์•„์ง ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋  ์—ฌ์ง€๊ฐ€ ์žˆ์Œ
    - ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์–‘ํ•˜๊ฒŒ, ๋งŽ์ด ์ˆ˜์ง‘
    - ๋” ๋ณต์žกํ•œ ๋ชจ๋ธ ์‚ฌ์šฉ
    - ๋ชจ๋ธ์„ ์ถฉ๋ถ„ํžˆ ํ•™์Šต

๐Ÿ“ฐ ์šฉ์–ด : ํ‰๊ฐ€ํ•˜๊ธฐ

  • ํ˜ผ๋ˆํ–‰๋ ฌ(Confusion Matrix)
    ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ์‚ฌ์šฉ
    ์ •๋‹ต(True), ์˜ค๋‹ต(False)
  • ์ •ํ™•๋„(Accuracy)
    ์ „์ฒด ๋ฐ์ดํ„ฐ ์ค‘์—์„œ ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ์ •๋‹ต๊ณผ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ์ •๋‹ต์ด ๊ฐ™์€ ๋น„์œจ
    ACC = TP+TN / TP+TN+FP+FN
    ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถˆ๊ท ํ˜•ํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ, ์ž˜๋ชป๋œ ์ง€ํ‘œ๋กœ์„œ ์‚ฌ์šฉ ๋  ์ˆ˜ ์žˆ์Œ
  • ์ •๋ฐ€๋„(Precision), ์žฌํ˜„์œจ(Recall)
    ์ •๋ฐ€๋„ : True๋ผ๊ณ  ์˜ˆ์ธกํ•œ ์ •๋‹ต ์ค‘ ์‹ค์ œ๋กœ True์ธ ๋น„์œจ TP / TP+FP
    ์žฌํ˜„์œจ : ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ€ True์ธ ๊ฒƒ ์ค‘์—์„œ ๋ชจ๋ธ์ด True๋ผ๊ณ  ์˜ˆ์ธกํ•œ ๋น„์œจ TP / TP+FN
  • F1-Score
    ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์˜ ์ค‘์š”์„ฑ์ด ๊ฐ™๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ณ . ๋‘ ์ง€ํ‘œ์˜ ์กฐํ™”ํ‰๊ท ์œผ๋กœ ์ƒˆ๋กœ์šด ์ง€ํ‘œ๋ฅผ ์ œ๊ณต
    F1= 2 x precision * recall / precision + recall
  • ROC ๊ณก์„ 
    Binary Classifier System(์ด์ง„ ๋ถ„๋ฅ˜ ์‹œ์Šคํ…œ)์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๊ธฐ๋ฒ•

๐Ÿ‘๏ธ ๋ฐ์ดํ„ฐ์…‹ ์‚ดํŽด๋ณด๊ธฐ

๊ธฐ์กด ์‚ฌ๋ก€์—์„œ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๋จผ์ € ์ ์šฉํ•ด๋ณด๋Š” ๊ฒƒ๋„ ํ”„๋กœ์ ํŠธ๋ฅผ ์„ฑ๊ณต์œผ๋กœ ์ด๋Œ ์ˆ˜ ์žˆ์Œ ~!~!~

  • ๊ตฌ๊ธ€ ๋ฐ์ดํ„ฐ์…‹ ๊ฒ€์ƒ‰
  • ์บ๊ธ€, AI hub, ๊ณต๊ณต ๋ฐ์ดํ„ฐ ํฌํ„ธ ๋“ฑ
profile
๋ฐฐ๊ณ ํŒŒ์šฉ.

0๊ฐœ์˜ ๋Œ“๊ธ€