โ‘  ๐Ÿค– Machine Learning 1์ผ์ฐจ - ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹(๊ฐœ๋…, ํ”„๋กœ์„ธ์Šค, ๋ถ„๋ฅ˜)

JItzelยท2025๋…„ 12์›” 10์ผ

๐Ÿก Machine_learning

๋ชฉ๋ก ๋ณด๊ธฐ
1/14
post-thumbnail

1. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹(Data Mining)์ด๋ž€?

๋ชฉํ‘œ

๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์—์„œ ์œ ์˜๋ฏธํ•œ ํŒจํ„ด๊ณผ ๊ทœ์น™์„ ๋ฐœ๊ฒฌํ•˜๊ณ , ๋ฐœ๊ฒฌ๋œ ๊ทœ์น™์„ ์˜ˆ์ธก ๋ฐ ์˜์‚ฌ๊ฒฐ์ •์— ํ™œ์šฉํ•˜๋Š” ๊ธฐ์ˆ 

์ฃผ์š” ๋ชฉ์ 

๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ๋ฅผ ์Œ“์•„๋‘๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ˆจ๊ฒจ์ง„ ๊ทœ์น™์„ ์ฐพ์•„๋‚ด์–ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฐ€์น˜๋ฅผ ์ฐฝ์ถœ

  • ์˜ˆ์ธก(Prediction)
    ๋ฐœ๊ฒฌ๋œ ํŒจํ„ด์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ์ˆ˜๋‚˜ ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด ๋ฏธ๋ž˜์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธก
    ex) ๋‹ค์Œ ๋‹ฌ ๋งค์ถœ์•ก ์˜ˆ์ธก, ๊ณ ๊ฐ ์ดํƒˆ ๊ฐ€๋Šฅ์„ฑ ์˜ˆ์ธก ๋“ฑ
  • ์„ค๋ช…(Description)
    ๋ฐ์ดํ„ฐ ์† ๊ทœ์น™์„ ํ†ตํ•ด ํ˜„์žฌ์˜ ํ˜„์ƒ์„ ์ดํ•ดํ•˜๊ณ  ์„ค๋ช…
    ๊ธฐ์—…์˜ ์˜์‚ฌ ๊ฒฐ์ •์ด๋‚˜ ์‹ ์ œํ’ˆ ๊ฐœ๋ฐœ, ๋งˆ์ผ€ํŒ… ์ „๋žต ์ˆ˜๋ฆฝ์˜ ๊ทผ๊ฑฐ

2. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ vs ํ†ต๊ณ„ ๋ถ„์„

ํ†ต๊ณ„ํ•™์ด ์ด๋ก ์  ๊ฐ€์„ค ๊ฒ€์ฆ์— ์ค‘์ ์„ ๋‘”๋‹ค๋ฉด, ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์€ ์‹ค์ œ ๋ฐ์ดํ„ฐ์—์„œ์˜ ํŒจํ„ด ๋ฐœ๊ฒฌ๊ณผ ํ™œ์šฉ์— ๋” ์ค‘์ 

๊ตฌ๋ถ„๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ํ†ต๊ณ„ ๋ถ„์„
๋ชฉํ‘œ๋ฐ์ดํ„ฐ ์† ํŒจํ„ด/๊ทœ์น™ ๋ฐœ๊ฒฌ โ†’ ์˜ˆ์ธก/์„ค๋ช…ํ‘œ๋ณธ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ์ง‘๋‹จ ์ถ”์ •/๊ฒ€์ •
์ ‘๊ทผ์‚ฌ์ „ ๊ฐ€์„ค ์—†์ด ๋ฐ์ดํ„ฐ ์ž์ฒด์—์„œ ํŒจํ„ด์„ ์ฐพ์Œ (๊ท€๋‚ฉ์ )(๊ฐ€์„ค/๊ฒ€์ • ํ•„์ˆ˜ ์•„๋‹˜)๊ฐ€์„ค ์„ค์ • ํ›„ ์ด๋ฅผ ๊ฒ€์ฆํ•˜๋Š” ๊ณผ์ • (์—ฐ์—ญ์ ) ํ•„์ˆ˜
๋ฐ์ดํ„ฐ์ „์ˆ˜ ๋ฐ์ดํ„ฐ(Big Data) ์ง€ํ–ฅํ‘œ๋ณธ(Sample) ๋ฐ์ดํ„ฐ ํ•„์ˆ˜
๊ณผ์ •์ธ์‚ฌ์ดํŠธ ํ™œ์šฉ ์ค‘์‹ฌ์ˆ˜์ง‘ โ†’ ์ •์ œ โ†’ ์ถ”์ • โ†’ ๊ฒ€์ •

3. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ํ”„๋กœ์„ธ์Šค (5๋‹จ๊ณ„)

  • โ‘  ๋ชฉ์  ์ •์˜ (Problem Definition) : ๋ถ„์„ ๋ชฉํ‘œ ์„ค์ •
    ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ๋น„์ฆˆ๋‹ˆ์Šค ๋ฌธ์ œ๋ฅผ ๋ช…ํ™•ํžˆ ์„ค์ •(๋ฌด์—‡์„ ์˜ˆ์ธกํ•  ๊ฒƒ์ธ๊ฐ€?)
  • โ‘ก ๋ฐ์ดํ„ฐ ์ค€๋น„ (Data Preparation) : ์ˆ˜์ง‘, ํ’ˆ์งˆ ํ™•๋ณด
    ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ , ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ(๊ฒฐ์ธก์น˜, ์ด์ƒ์น˜ ๋“ฑ)์„ ์ ๊ฒ€
  • โ‘ข ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต (Data Preprocessing) : ๋ถ„์„ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ์ „์ฒ˜๋ฆฌ
    ๋ถ„์„ ๊ธฐ๋ฒ•์— ๋งž๊ฒŒ ๋ฐ์ดํ„ฐ ๋ณ€ํ™˜(์ •๊ทœํ™”, ์›-ํ•ซ ์ธ์ฝ”๋”ฉ ๋“ฑ)
    ์ด ๋‹จ๊ณ„๊ฐ€ ์ „์ฒด ๊ณผ์ •์˜ 70~80% ์‹œ๊ฐ„์„ ์ฐจ์ง€ํ•  ๋งŒํผ ์ค‘์š”
  • โ‘ฃ ๊ธฐ๋ฒ• ์ ์šฉ (Modeling) : ๋ถ„์„ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ ์šฉ
    ๋ชฉ์ ์— ๋งž๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜(ํšŒ๊ท€, ๋ถ„๋ฅ˜, ๊ตฐ์ง‘ ๋“ฑ)์„ ์„ ํƒํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šต
  • โ‘ค ๊ฒ€์ฆ (Evaluation) : ์„ฑ๋Šฅ/๊ฒฐ๊ณผ ๊ฒ€์ฆ
    ๋„์ถœ๋œ ๋ชจ๋ธ์ด ์œ ์˜๋ฏธํ•œ์ง€ ํ‰๊ฐ€ํ•˜๊ณ , ์‹ค์ œ ์—…๋ฌด์— ์ ์šฉ(๋ฐฐํฌ)

4. ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๋ถ„๋ฅ˜

๋ฐ์ดํ„ฐ์— '์ •๋‹ต(Label)'์ด ์žˆ๋А๋ƒ ์—†๋А๋ƒ๊ฐ€ ๊ฐ€์žฅ ํฐ ๊ธฐ์ค€

(1) ํ•™์Šต ๋ฐฉ๋ฒ• ๊ธฐ์ค€

1) ์ง€๋„ ํ•™์Šต (Supervised Learning)

  • ๊ฐœ๋…: ๋ฌธ์ œ(Input)์™€ ์ •๋‹ต(Label/Target)์ด ๋ชจ๋‘ ์ฃผ์–ด์ง„ ์ƒํƒœ์—์„œ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ํŠน์ง•: ๋ฐ˜๋“œ์‹œ ์ •๋‹ต์ง€(์ข…์†๋ณ€์ˆ˜ YY) ๊ฐ€ ํ•„์š”
    ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ ์‹ค์ œ ์ •๋‹ต์„ ๋น„๊ตํ•˜๋ฉฐ ์˜ค์ฐจ๋ฅผ ์ค„์—ฌ๋‚˜๊ฐ„๋‹ค.
  • ์ฃผ์š” ๊ธฐ๋ฒ•: ํšŒ๊ท€ (Regression) ์ˆซ์ž๋ฅผ ์˜ˆ์ธก (์˜ˆ: ์•„ํŒŒํŠธ ๊ฐ€๊ฒฉ ์˜ˆ์ธก)
    ๋ถ„๋ฅ˜ (Classification) ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ์˜ˆ์ธก (์˜ˆ: ์ŠคํŒธ ๋ฉ”์ผ ๋ถ„๋ฅ˜)

2) ๋น„์ง€๋„ ํ•™์Šต (Unsupervised Learning)

  • ๊ฐœ๋…: ์ •๋‹ต(Label) ์—†์ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ(Input)๋งŒ์œผ๋กœ ๋ฐ์ดํ„ฐ์˜ ์ˆจ๊ฒจ์ง„ ๊ตฌ์กฐ๋‚˜ ํŒจํ„ด์„ ์Šค์Šค๋กœ ํ•™์Šต
  • ํŠน์ง•: ์ข…์†๋ณ€์ˆ˜(YY)๊ฐ€ ์—†๋‹ค.
    ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ(Feature)์ด ๋น„์Šทํ•œ ๊ฒƒ๋ผ๋ฆฌ ๋ฌถ๊ฑฐ๋‚˜ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ
  • ์ฃผ์š” ๊ธฐ๋ฒ•: ๊ตฐ์ง‘ํ™” (Clustering) ๋น„์Šทํ•œ ๋ฐ์ดํ„ฐ๋ผ๋ฆฌ ๊ทธ๋ฃนํ•‘
    ์—ฐ๊ด€ ๋ถ„์„ (Association) ์•„์ดํ…œ ๊ฐ„์˜ ๊ด€๊ณ„ ํŒŒ์•…
    ์ฐจ์› ์ถ•์†Œ (Dimensionality Reduction) ๋ฐ์ดํ„ฐ์˜ ๋ณต์žก๋„๋ฅผ ์ค„์—ฌ ์‹œ๊ฐ

(2) ๋ถ„์„ ๋ชฉ์ ์— ๋”ฐ๋ฅธ ์„ธ๋ถ€ ๊ธฐ๋ฒ•

1) ๋ถ„๋ฅ˜ (Classification)

  • ์†Œ์†: ์ง€๋„ ํ•™์Šต
  • ๋ชฉ์ : ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ๊ทธ๋ฃน(ํด๋ž˜์Šค)์— ์†ํ•˜๋Š”์ง€ ํŒ๋ณ„
  • ์•Œ๊ณ ๋ฆฌ์ฆ˜: ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€, ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด(Decision Tree), SVM, ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋“ฑ
  • Ex) ์ด ๊ณ ๊ฐ์ด ๋Œ€์ถœ์„ ๊ฐš์„๊นŒ(O) ๋ชป ๊ฐš์„๊นŒ(X)?
    ์–ด๋А ๊ทธ๋ฃน์— ์†ํ•˜๋Š”์ง€๋ฅผ ์˜ˆ์ธก
    ์ง€๋„ํ•™์Šต
    ์˜ˆ: ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€, ๊ฒฐ์ •ํŠธ๋ฆฌ

2) ๊ตฐ์ง‘ (Clustering)

  • ์†Œ์†: ๋น„์ง€๋„ ํ•™์Šต
  • ๋ชฉ์ : ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ์œ ์‚ฌ์„ฑ์„ ์ธก์ •ํ•˜์—ฌ ๊ฐ™์€ ์„ฑํ–ฅ์˜ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์Œ
  • ์•Œ๊ณ ๋ฆฌ์ฆ˜: K-Means, ๊ณ„์ธต์  ๊ตฐ์ง‘(Hierarchical), DBSCAN ๋“ฑ
  • Ex) ๋‰ด์Šค ๊ธฐ์‚ฌ๋ฅผ ์ฃผ์ œ๋ณ„๋กœ ๊ทธ๋ฃนํ•‘ํ•˜๊ธฐ, ๊ณ ๊ฐ ์„ธ๋ถ„ํ™”(Segmentation)

3) ์—ฐ๊ด€ ๋ถ„์„ (Association Analysis)

  • ์†Œ์†: ๋น„์ง€๋„ ํ•™์Šต
  • ๋ชฉ์ : ๋ฐ์ดํ„ฐ(์ƒํ’ˆ) ๊ฐ„์˜ ๋™์‹œ ๋ฐœ์ƒ ํ™•๋ฅ ์ด๋‚˜ ์—ฐ๊ด€์„ฑ ํŒŒ์•…
  • ํŠน์ง•: '์žฅ๋ฐ”๊ตฌ๋‹ˆ ๋ถ„์„'์ด๋ผ๊ณ ๋„ ๋ถˆ๋ฆผ.
  • ํ™œ์šฉ: ๊ต์ฐจ ํŒ๋งค(Cross-selling), ๋ฌผ๊ฑด ์ง„์—ด ๋ฐฐ์น˜ ๋“ฑ์— ํ™œ์šฉ
  • Ex) "๋งฅ์ฃผ๋ฅผ ์‚ฌ๋Š” ์‚ฌ๋žŒ์€ ๊ธฐ์ €๊ท€๋„ ๊ฐ™์ด ์‚ฌ๋”๋ผ" (์›”๋งˆํŠธ ์‚ฌ๋ก€)

์š”์•ฝ

  • ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์€ ๋ฐ์ดํ„ฐ์—์„œ ํŒจํ„ด์„ ์ฐพ์•„ ์˜ˆ์ธก/์„ค๋ช…ํ•˜๋Š” ๊ณผ์ •์ด๋‹ค.
    ์ง€๋„ ํ•™์Šต์€ ์ •๋‹ต(Label)์ด ์žˆ๊ณ , ๋น„์ง€๋„ ํ•™์Šต์€ ์ •๋‹ต์ด ์—†๋‹ค.
    ๋ชฉ์ ์— ๋”ฐ๋ผ ๋ถ„๋ฅ˜(์˜ˆ์ธก), ๊ตฐ์ง‘(๊ทธ๋ฃนํ•‘), ์—ฐ๊ด€(๊ด€๊ณ„ ํŒŒ์•…) ๋“ฑ์˜ ๊ธฐ๋ฒ•์„ ์ ์ ˆํžˆ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค.
profile
์†Œ๊ธˆ์— ์ ˆ์ธ ์ƒ์„ , ๋ชธ์„ ๋’ค์ฒ™์ด๋‹ค ๐ŸŸ

0๊ฐœ์˜ ๋Œ“๊ธ€