1. ๋ฐ์ดํฐ ๋ง์ด๋(Data Mining)์ด๋?
๋ชฉํ
๋ฐฉ๋ํ ๋ฐ์ดํฐ์์ ์ ์๋ฏธํ ํจํด๊ณผ ๊ท์น์ ๋ฐ๊ฒฌํ๊ณ , ๋ฐ๊ฒฌ๋ ๊ท์น์ ์์ธก ๋ฐ ์์ฌ๊ฒฐ์ ์ ํ์ฉํ๋ ๊ธฐ์
์ฃผ์ ๋ชฉ์
๋จ์ํ ๋ฐ์ดํฐ๋ฅผ ์์๋๋ ๊ฒ์ด ์๋๋ผ, ์จ๊ฒจ์ง ๊ท์น์ ์ฐพ์๋ด์ด ๋ค์๊ณผ ๊ฐ์ ๊ฐ์น๋ฅผ ์ฐฝ์ถ
- ์์ธก(Prediction)
๋ฐ๊ฒฌ๋ ํจํด์ ๊ธฐ๋ฐ์ผ๋ก ํจ์๋ ๋ชจ๋ธ์ ๋ง๋ค์ด ๋ฏธ๋์ ๊ฒฐ๊ณผ๋ฅผ ์์ธก
ex) ๋ค์ ๋ฌ ๋งค์ถ์ก ์์ธก, ๊ณ ๊ฐ ์ดํ ๊ฐ๋ฅ์ฑ ์์ธก ๋ฑ
- ์ค๋ช
(Description)
๋ฐ์ดํฐ ์ ๊ท์น์ ํตํด ํ์ฌ์ ํ์์ ์ดํดํ๊ณ ์ค๋ช
๊ธฐ์
์ ์์ฌ ๊ฒฐ์ ์ด๋ ์ ์ ํ ๊ฐ๋ฐ, ๋ง์ผํ
์ ๋ต ์๋ฆฝ์ ๊ทผ๊ฑฐ
2. ๋ฐ์ดํฐ ๋ง์ด๋ vs ํต๊ณ ๋ถ์
ํต๊ณํ์ด ์ด๋ก ์ ๊ฐ์ค ๊ฒ์ฆ์ ์ค์ ์ ๋๋ค๋ฉด, ๋ฐ์ดํฐ ๋ง์ด๋์ ์ค์ ๋ฐ์ดํฐ์์์ ํจํด ๋ฐ๊ฒฌ๊ณผ ํ์ฉ์ ๋ ์ค์
| ๊ตฌ๋ถ | ๋ฐ์ดํฐ ๋ง์ด๋ | ํต๊ณ ๋ถ์ |
|---|
| ๋ชฉํ | ๋ฐ์ดํฐ ์ ํจํด/๊ท์น ๋ฐ๊ฒฌ โ ์์ธก/์ค๋ช
| ํ๋ณธ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ์ง๋จ ์ถ์ /๊ฒ์ |
| ์ ๊ทผ | ์ฌ์ ๊ฐ์ค ์์ด ๋ฐ์ดํฐ ์์ฒด์์ ํจํด์ ์ฐพ์ (๊ท๋ฉ์ )(๊ฐ์ค/๊ฒ์ ํ์ ์๋) | ๊ฐ์ค ์ค์ ํ ์ด๋ฅผ ๊ฒ์ฆํ๋ ๊ณผ์ (์ฐ์ญ์ ) ํ์ |
| ๋ฐ์ดํฐ | ์ ์ ๋ฐ์ดํฐ(Big Data) ์งํฅ | ํ๋ณธ(Sample) ๋ฐ์ดํฐ ํ์ |
| ๊ณผ์ | ์ธ์ฌ์ดํธ ํ์ฉ ์ค์ฌ | ์์ง โ ์ ์ โ ์ถ์ โ ๊ฒ์ |
3. ๋ฐ์ดํฐ ๋ง์ด๋ ํ๋ก์ธ์ค (5๋จ๊ณ)
- โ ๋ชฉ์ ์ ์ (Problem Definition) : ๋ถ์ ๋ชฉํ ์ค์
ํด๊ฒฐํ๊ณ ์ ํ๋ ๋น์ฆ๋์ค ๋ฌธ์ ๋ฅผ ๋ช
ํํ ์ค์ (๋ฌด์์ ์์ธกํ ๊ฒ์ธ๊ฐ?)
- โก ๋ฐ์ดํฐ ์ค๋น (Data Preparation) : ์์ง, ํ์ง ํ๋ณด
ํ์ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , ๋ฐ์ดํฐ์ ํ์ง(๊ฒฐ์ธก์น, ์ด์์น ๋ฑ)์ ์ ๊ฒ
- โข ๋ฐ์ดํฐ ๊ฐ๊ณต (Data Preprocessing) : ๋ถ์ ๊ฐ๋ฅํ ํํ๋ก ์ ์ฒ๋ฆฌ
๋ถ์ ๊ธฐ๋ฒ์ ๋ง๊ฒ ๋ฐ์ดํฐ ๋ณํ(์ ๊ทํ, ์-ํซ ์ธ์ฝ๋ฉ ๋ฑ)
์ด ๋จ๊ณ๊ฐ ์ ์ฒด ๊ณผ์ ์ 70~80% ์๊ฐ์ ์ฐจ์งํ ๋งํผ ์ค์
- โฃ ๊ธฐ๋ฒ ์ ์ฉ (Modeling) : ๋ถ์ ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ
๋ชฉ์ ์ ๋ง๋ ์๊ณ ๋ฆฌ์ฆ(ํ๊ท, ๋ถ๋ฅ, ๊ตฐ์ง ๋ฑ)์ ์ ํํ์ฌ ๋ชจ๋ธ์ ํ์ต
- โค ๊ฒ์ฆ (Evaluation) : ์ฑ๋ฅ/๊ฒฐ๊ณผ ๊ฒ์ฆ
๋์ถ๋ ๋ชจ๋ธ์ด ์ ์๋ฏธํ์ง ํ๊ฐํ๊ณ , ์ค์ ์
๋ฌด์ ์ ์ฉ(๋ฐฐํฌ)
4. ๋จธ์ ๋ฌ๋์ ๋ถ๋ฅ
๋ฐ์ดํฐ์ '์ ๋ต(Label)'์ด ์๋๋ ์๋๋๊ฐ ๊ฐ์ฅ ํฐ ๊ธฐ์ค
(1) ํ์ต ๋ฐฉ๋ฒ ๊ธฐ์ค
1) ์ง๋ ํ์ต (Supervised Learning)
- ๊ฐ๋
: ๋ฌธ์ (Input)์ ์ ๋ต(Label/Target)์ด ๋ชจ๋ ์ฃผ์ด์ง ์ํ์์ ํ์ตํ๋ ๋ฐฉ๋ฒ
- ํน์ง: ๋ฐ๋์ ์ ๋ต์ง(์ข
์๋ณ์ Y) ๊ฐ ํ์
๋ชจ๋ธ์ด ์์ธกํ ๊ฐ๊ณผ ์ค์ ์ ๋ต์ ๋น๊ตํ๋ฉฐ ์ค์ฐจ๋ฅผ ์ค์ฌ๋๊ฐ๋ค.
- ์ฃผ์ ๊ธฐ๋ฒ: ํ๊ท (Regression) ์ซ์๋ฅผ ์์ธก (์: ์ํํธ ๊ฐ๊ฒฉ ์์ธก)
๋ถ๋ฅ (Classification) ์นดํ
๊ณ ๋ฆฌ๋ฅผ ์์ธก (์: ์คํธ ๋ฉ์ผ ๋ถ๋ฅ)
2) ๋น์ง๋ ํ์ต (Unsupervised Learning)
- ๊ฐ๋
: ์ ๋ต(Label) ์์ด ์
๋ ฅ ๋ฐ์ดํฐ(Input)๋ง์ผ๋ก ๋ฐ์ดํฐ์ ์จ๊ฒจ์ง ๊ตฌ์กฐ๋ ํจํด์ ์ค์ค๋ก ํ์ต
- ํน์ง: ์ข
์๋ณ์(Y)๊ฐ ์๋ค.
๋ฐ์ดํฐ์ ํน์ฑ(Feature)์ด ๋น์ทํ ๊ฒ๋ผ๋ฆฌ ๋ฌถ๊ฑฐ๋ ๊ตฌ์กฐ๋ฅผ ํ์
ํ๋ ๋ฐ ์ฌ์ฉ
- ์ฃผ์ ๊ธฐ๋ฒ: ๊ตฐ์งํ (Clustering) ๋น์ทํ ๋ฐ์ดํฐ๋ผ๋ฆฌ ๊ทธ๋ฃนํ
์ฐ๊ด ๋ถ์ (Association) ์์ดํ
๊ฐ์ ๊ด๊ณ ํ์
์ฐจ์ ์ถ์ (Dimensionality Reduction) ๋ฐ์ดํฐ์ ๋ณต์ก๋๋ฅผ ์ค์ฌ ์๊ฐ
(2) ๋ถ์ ๋ชฉ์ ์ ๋ฐ๋ฅธ ์ธ๋ถ ๊ธฐ๋ฒ
1) ๋ถ๋ฅ (Classification)
- ์์: ์ง๋ ํ์ต
- ๋ชฉ์ : ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ด๋ค ๊ทธ๋ฃน(ํด๋์ค)์ ์ํ๋์ง ํ๋ณ
- ์๊ณ ๋ฆฌ์ฆ: ๋ก์ง์คํฑ ํ๊ท, ์์ฌ๊ฒฐ์ ๋๋ฌด(Decision Tree), SVM, ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ฑ
- Ex) ์ด ๊ณ ๊ฐ์ด ๋์ถ์ ๊ฐ์๊น(O) ๋ชป ๊ฐ์๊น(X)?
์ด๋ ๊ทธ๋ฃน์ ์ํ๋์ง๋ฅผ ์์ธก
์ง๋ํ์ต
์: ๋ก์ง์คํฑ ํ๊ท, ๊ฒฐ์ ํธ๋ฆฌ
2) ๊ตฐ์ง (Clustering)
- ์์: ๋น์ง๋ ํ์ต
- ๋ชฉ์ : ๋ฐ์ดํฐ ๊ฐ์ ์ ์ฌ์ฑ์ ์ธก์ ํ์ฌ ๊ฐ์ ์ฑํฅ์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์
- ์๊ณ ๋ฆฌ์ฆ: K-Means, ๊ณ์ธต์ ๊ตฐ์ง(Hierarchical), DBSCAN ๋ฑ
- Ex) ๋ด์ค ๊ธฐ์ฌ๋ฅผ ์ฃผ์ ๋ณ๋ก ๊ทธ๋ฃนํํ๊ธฐ, ๊ณ ๊ฐ ์ธ๋ถํ(Segmentation)
3) ์ฐ๊ด ๋ถ์ (Association Analysis)
- ์์: ๋น์ง๋ ํ์ต
- ๋ชฉ์ : ๋ฐ์ดํฐ(์ํ) ๊ฐ์ ๋์ ๋ฐ์ ํ๋ฅ ์ด๋ ์ฐ๊ด์ฑ ํ์
- ํน์ง: '์ฅ๋ฐ๊ตฌ๋ ๋ถ์'์ด๋ผ๊ณ ๋ ๋ถ๋ฆผ.
- ํ์ฉ: ๊ต์ฐจ ํ๋งค(Cross-selling), ๋ฌผ๊ฑด ์ง์ด ๋ฐฐ์น ๋ฑ์ ํ์ฉ
- Ex) "๋งฅ์ฃผ๋ฅผ ์ฌ๋ ์ฌ๋์ ๊ธฐ์ ๊ท๋ ๊ฐ์ด ์ฌ๋๋ผ" (์๋งํธ ์ฌ๋ก)
์์ฝ
- ๋ฐ์ดํฐ ๋ง์ด๋์ ๋ฐ์ดํฐ์์ ํจํด์ ์ฐพ์ ์์ธก/์ค๋ช
ํ๋ ๊ณผ์ ์ด๋ค.
์ง๋ ํ์ต์ ์ ๋ต(Label)์ด ์๊ณ , ๋น์ง๋ ํ์ต์ ์ ๋ต์ด ์๋ค.
๋ชฉ์ ์ ๋ฐ๋ผ ๋ถ๋ฅ(์์ธก), ๊ตฐ์ง(๊ทธ๋ฃนํ), ์ฐ๊ด(๊ด๊ณ ํ์
) ๋ฑ์ ๊ธฐ๋ฒ์ ์ ์ ํ ์ฌ์ฉํด์ผ ํ๋ค.