๐ ๋ฐ์ดํฐ ๋ถ์ ๋ฐฉ๋ฒ๋ก : CRISP-DM
1. ๋ฐ์ดํฐ ๊ด๋ จ ์ฃผ์ ๊ฐ๋
๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ถ์ผ๋ ํฌ๊ฒ ์ธ ๊ฐ์ง๋ก ๋๋ ์ ์์ผ๋ฉฐ, ๊ฐ ์ญํ ๊ณผ ๋ชฉํ๊ฐ ๋ค๋ฆ
๋๋ค.
| ๋ถ์ผ | ์ค๋ช
| ์ฃผ์ ํ๋ |
|---|
| Data Engineering | ๋ถ์ ๊ฐ๋ฅํ ํํ์ ๋ฐ์ดํฐ ์ธํ๋ผ๋ฅผ ๊ตฌ์ถํ๊ณ ์ด์ | ๋ฐ์ดํฐ ์์งยท์ฒ๋ฆฌยท์ ์ฅ, ๋ณด์, ํ์ดํ๋ผ์ธ ๊ตฌ์ถ |
| Data Analytics | ๊ธฐ์กด ๋ฐ์ดํฐ๋ฅผ ํต๊ณ์ ์ผ๋ก ๋ถ์ํ์ฌ ์ธ์ฌ์ดํธ ๋์ถ | ๋ฐ์ดํฐ ์ฒ๋ฆฌ, ๊ตฌ์ฑ, ๊ฒฐ๊ณผ ๋จ์ํ ๋ฐ ์๊ฐํ |
| Data Science | ๋ฐฉ๋ํ ๋ฐ์ดํฐ์์ ํต์ฐฐ๋ ฅ์ ์ฐพ๊ณ ๋ฏธ๋๋ฅผ ์์ธก | ๋จธ์ ๋ฌ๋/๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ง, ์์ธก, ์ง๋ฌธ(Question) ๋ฐ๊ตด |
Data Mining (๋ฐ์ดํฐ ๋ง์ด๋)
- ์ ์: ๋๊ท๋ชจ ๋ฐ์ดํฐ์์ ์จ๊ฒจ์ง ํจํด๊ณผ ๊ด๊ณ๋ฅผ ์ฐพ์๋ด์ด ์ค์ฉ์ ์ธ ์ง์์ผ๋ก ๋ณํํ๋ ๊ณผ์ .
- ์ค์์ฑ: ๊ธฐ์
์ ์ ๋ต์ ์์ฌ๊ฒฐ์ , ์ด์ ํจ์จ์ฑ ํฅ์, ์๋ก์ด ๋น์ฆ๋์ค ๊ธฐํ ์ฐฝ์ถ์ ๊ธฐ์ฌ.
2. CRISP-DM ๊ฐ์
CRISP-DM (CRoss Industry Standard Process for Data Mining)์ ๋ฐ์ดํฐ ๋ง์ด๋ ๋ฐ ๋ฐ์ดํฐ ๊ณผํ ํ๋ก์ ํธ๋ฅผ ์ํด ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ํ์ค ํ๋ก์ธ์ค ๋ชจ๋ธ์
๋๋ค.
- ํน์ง:
- ์ฐ์
ํ์ค ๋ฐฉ๋ฒ๋ก (๊ฐ์ฅ ๋ณดํธ์ ์ผ๋ก ์ฌ์ฉ๋จ).
- 6๋จ๊ณ์ ํ๋ก์ธ์ค๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ๋จ๊ณ๋ ์ ๊ธฐ์ ์ด๊ณ ๋ฐ๋ณต์ (Iterative)์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
- ํญํฌ์(Waterfall) ๋ชจ๋ธ๊ณผ ์ ์ฌํ์ง๋ง, ๋จ๊ณ ๊ฐ์ ํผ๋๋ฐฑ ๋ฃจํ(Feedback Loop)๊ฐ ์์ด ์ด์ ๋จ๊ณ๋ก ๋์๊ฐ ์์ ํ๋ ๊ฒ์ด ์์ ๋กญ์ต๋๋ค.

๐ ํ๋ก์ธ์ค ๋ผ์ดํ์ฌ์ดํด (6 Phases)
- Business Understanding (๋น์ฆ๋์ค ์ดํด)
- Data Understanding (๋ฐ์ดํฐ ์ดํด)
- Data Preparation (๋ฐ์ดํฐ ์ค๋น)
- Modeling (๋ชจ๋ธ๋ง)
- Evaluation (ํ๊ฐ)
- Deployment (๋ฐฐํฌ)

3. CRISP-DM ์ธ๋ถ ๋จ๊ณ
Phase 1: Business Understanding (๋น์ฆ๋์ค ์ดํด)
ํ๋ก์ ํธ์ ๊ธฐ์ด๋ฅผ ๋ค์ง๋ ๊ฐ์ฅ ์ค์ํ ๋จ๊ณ๋ก, ์ฌ์
๊ด์ ์์ ๋ชฉํ๋ฅผ ์ค์ ํฉ๋๋ค.
- ์ฃผ์ ํ์คํฌ:
- ๋น์ฆ๋์ค ๋ชฉํ ์ค์ : ๊ณ ๊ฐ ์ดํ ๋ฐฉ์ง, ๊ต์ฐจ ํ๋งค(Cross-selling) ์ฆ๋ ๋ฑ.
- ์ํฉ ํ๊ฐ: ์์, ์๊ตฌ์ฌํญ, ์ํ ์์, ๋น์ฉ/ํํ ๋ถ์.
- ๋ฐ์ดํฐ ๋ง์ด๋ ๋ชฉํ ์ค์ : ๋น์ฆ๋์ค ๋ชฉํ๋ฅผ ๊ธฐ์ ์ ๋ชฉํ๋ก ๋ณํ (์: ์ดํ๋ฅ 10% ๊ฐ์ โ ์ดํ ์์ธก ๋ชจ๋ธ ์ ํ๋ 85% ๋ฌ์ฑ).
- ํ๋ก์ ํธ ๊ณํ ์๋ฆฝ: ๋จ๊ณ๋ณ ์ผ์ ๋ฐ ๋๊ตฌ ์ ์ .
- E-์๋งค์
์์: ๊ฒฝ์ ์ฌํ๋ก ์ธํ ์์ต์ฑ ์ ์ง๋ฅผ ์ํด '๊ธฐ์กด ๊ณ ๊ฐ ๊ด๊ณ ๊ฐํ'๋ฅผ ๋น์ฆ๋์ค ๋ชฉํ๋ก ์ค์ .
Phase 2: Data Understanding (๋ฐ์ดํฐ ์ดํด)
๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ์ด๊ธฐ ํ์์ ํตํด ๋ฐ์ดํฐ์ ์น์ํด์ง๋ ๋จ๊ณ์
๋๋ค.
- ์ฃผ์ ํ์คํฌ:
- ์ด๊ธฐ ๋ฐ์ดํฐ ์์ง: ์ฌ๋ด ๋ฐ์ดํฐ(๋ก๊ทธ, ๊ฑฐ๋ ๋ด์ญ) ๋ฐ ์ธ๋ถ ๋ฐ์ดํฐ ํ๋ณด.
- ๋ฐ์ดํฐ ๊ธฐ์ (Describe): ๋ฐ์ดํฐ์ ์, ํ์, ์์ฑ ํ์
.
- ๋ฐ์ดํฐ ํ์(Explore): ์๊ฐํ, ๊ธฐ์ด ํต๊ณ๋์ ํตํด ๊ฐ์ค ์๋ฆฝ ๋ฐ ํจํด ๋ฐ๊ฒฌ.
- ๋ฐ์ดํฐ ํ์ง ๊ฒ์ฆ: ๊ฒฐ์ธก์น, ์ค๋ฅ, ๋ถ์ผ์น ๋ฐ์ดํฐ ํ์ธ.
Phase 3: Data Preparation (๋ฐ์ดํฐ ์ค๋น)
๋ชจ๋ธ๋ง์ ์ํด ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๋ ๋จ๊ณ๋ก, ์ ์ฒด ํ๋ก์ ํธ ์๊ฐ์ 50~80%๊ฐ ์์๋๋ ๊ฐ์ฅ ๊ณ ๋ ์์
์
๋๋ค.
- ์ฃผ์ ํ์คํฌ:
- ๋ฐ์ดํฐ ์ ํ: ๋ถ์์ ํ์ํ ๋ฐ์ดํฐ(ํ/์ด)๋ง ์ ๋ณ.
- ๋ฐ์ดํฐ ์ ์ (Cleaning): ๊ฒฐ์ธก์น ์ฒ๋ฆฌ, ๋
ธ์ด์ฆ ์ ๊ฑฐ, ์ค๋ฅ ์์ .
- ๋ฐ์ดํฐ ๊ตฌ์ถ(Construct): ํ์ ๋ณ์ ์์ฑ (์: ํค, ๋ชธ๋ฌด๊ฒ โ BMI).
- ๋ฐ์ดํฐ ํตํฉ(Integrate): ์ฌ๋ฌ ๋ฐ์ดํฐ ์์ค(ํ
์ด๋ธ) ๋ณํฉ.
- ๋ฐ์ดํฐ ํฌ๋งทํ
: ๋ชจ๋ธ๋ง ๋๊ตฌ์ ๋ง๋ ํ์์ผ๋ก ๋ณํ.
Phase 4: Modeling (๋ชจ๋ธ๋ง)
๋ค์ํ ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ ์ต์ ํํ๋ ๋จ๊ณ์
๋๋ค. ๋ฐ์ดํฐ ์ค๋น ๋จ๊ณ์ ๋น๋ฒํ๊ฒ ์ํธ์์ฉํฉ๋๋ค.
- ์ฃผ์ ํ์คํฌ:
- ๊ธฐ๋ฒ ์ ํ: ๋ฌธ์ ์ ํ(๋ถ๋ฅ, ํ๊ท, ๊ตฐ์ง ๋ฑ)์ ๋ง๋ ์๊ณ ๋ฆฌ์ฆ ์ ํ.
- ํ
์คํธ ์ค๊ณ: ํ์ต(Train) ๋ฐ์ดํฐ์ ๊ฒ์ฆ(Test) ๋ฐ์ดํฐ ๋ถํ .
- ๋ชจ๋ธ ์์ฑ: ํ๋ผ๋ฏธํฐ ํ๋ ๋ฐ ๋ชจ๋ธ ์์ฑ.
- ๋ชจ๋ธ ํ๊ฐ(๊ธฐ์ ์ ): ๋ชจ๋ธ์ ์ ํ๋, ์ค์ฐจ์จ ๋ฑ์ ๊ธฐ์ ์ ์ผ๋ก ๊ฒ์ฆ.
Phase 5: Evaluation (ํ๊ฐ)
๋ชจ๋ธ์ด ๊ธฐ์ ์ ์ผ๋ก ์ฐ์ํ๋๋ผ๋ ๋น์ฆ๋์ค ๋ชฉ์ ์ ๋ฌ์ฑํ ์ ์๋์ง ์ต์ข
ํ์ธํ๋ ๋จ๊ณ์
๋๋ค.
- ์ฃผ์ ํ์คํฌ:
- ๊ฒฐ๊ณผ ํ๊ฐ: ๋ชจ๋ธ์ด ๋น์ฆ๋์ค ์ฑ๊ณต ๊ธฐ์ค(์: ROI, ๋น์ฉ ์ ๊ฐ)์ ์ถฉ์กฑํ๋์ง ํ์ธ.
- ํ๋ก์ธ์ค ๊ฒํ : ๋๋ฝ๋ ์์๋ ์ค์๊ฐ ์๋์ง ์ ์ฒด ๊ณผ์ ์ฌ์ ๊ฒ.
- ๋ค์ ๋จ๊ณ ๊ฒฐ์ : ๋ฐฐํฌํ ๊ฒ์ธ์ง, ํ๋ก์ ํธ๋ฅผ ๋ฐ๋ณต(์์ )ํ ๊ฒ์ธ์ง ๊ฒฐ์ .
Phase 6: Deployment (๋ฐฐํฌ)
์์ฑ๋ ๋ชจ๋ธ์ ์ค์ ํ์
(๊ณ ๊ฐ)์ด ์ฌ์ฉํ ์ ์๋๋ก ์ ์ฉํ๋ ๋จ๊ณ์
๋๋ค.
- ์ฃผ์ ํ์คํฌ:
- ๋ฐฐํฌ ๊ณํ: ๋ชจ๋ธ์ ์์คํ
์ ํตํฉํ๊ฑฐ๋ ๋ฆฌํฌํธ ํํ๋ก ์ ๋ฌ.
- ๋ชจ๋ํฐ๋ง ๋ฐ ์ ์ง๋ณด์ ๊ณํ: ๋ชจ๋ธ ์ฑ๋ฅ ์ ํ ๊ฐ์ง ๋ฐ ์ฌํ์ต ๊ณํ ์๋ฆฝ.
- ์ต์ข
๋ณด๊ณ ์ ์์ฑ: ํ๋ก์ ํธ ์ฑ๊ณผ ๋ฐ ๋ฌธ์ํ.
- ํ๋ก์ ํธ ํ๊ณ : ๊ตํ ๋ฐ ๊ฐ์ ์ ๋์ถ.
4. CRISP-DM์ ํ๊ฐ (์ฅ๋จ์ )
โ
์ฅ์ (Strengths)
- ์์์ ์ด๊ณ ์ง๊ด์ : ๋ฐ์ดํฐ ๊ณผํ์๊ฐ ์์ฐ์ค๋ฝ๊ฒ ์ํํ๋ ์์
ํ๋ฆ๊ณผ ์ผ์นํจ.
- ์ ์ฐ์ฑ: ๋ฐ๋ณต์ ์ธ(Iterative) ํน์ฑ์ ์ง์ํ์ฌ, ๊ฒฝํ์ ์ง์์ ๋ค์ ์ฌ์ดํด์ ๋ฐ์ ๊ฐ๋ฅ.
- ๋น์ฆ๋์ค ์ค์ฌ: ์ด๊ธฐ ๋จ๊ณ๋ถํฐ ๋น์ฆ๋์ค ๋ชฉํ๋ฅผ ๊ฐ์กฐํ์ฌ ๊ธฐ์ ์ ํจ์ ์ ๋น ์ง๋ ๊ฒ์ ๋ฐฉ์ง.
- ๋ฒ์ฉ์ฑ: ํน์ ์ฐ์
์ด๋ ๋๊ตฌ์ ์ข
์๋์ง ์์.
โ ๏ธ ๋จ์ ๋ฐ ํ๊ณ (Weaknesses)
- ํ ํ์
๋๊ตฌ ๋ถ์ฌ: ํ๋ก์ ํธ ๊ด๋ฆฌ(PM) ๋ฐฉ๋ฒ๋ก ์ด๋ผ๊ธฐ๋ณด๋ค ๊ฐ์ธ์ด๋ ์๊ท๋ชจ ํ์ ์์
ํ๋ฆ์ ๊ฐ๊น์ (ํ์
, ์์ฌ์ํต ๊ธฐ๋ฅ ๋ถ์กฑ).
- ๋ฌธ์ํ ๋ถ๋ด: ๊ฐ ๋จ๊ณ๋ง๋ค ๋ฐฉ๋ํ ๋ฌธ์ํ๋ฅผ ์๊ตฌํ์ฌ ์ ์์ผ(Agile) ํ๊ฒฝ์์ ์๋๋ฅผ ์ ํ์ํฌ ์ ์์.
- ์ด์ ๋จ๊ณ ๋ฏธํก: 1999๋
์ ๋ง๋ค์ด์ ธ ํ๋์ MLOps(์ง์์ ์ด์ ๋ฐ ๋ฐฐํฌ) ๊ฐ๋
์ด ๋ถ์กฑํจ.
- ๋๋ฆฐ ์์: ์ํฐํด ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ ์ด๊ธฐ ๋จ๊ณ(๋น์ฆ๋์ค/๋ฐ์ดํฐ ์ดํด)์ ์๊ฐ์ ๋ง์ด ์จ์ ๊ฒฐ๊ณผ๋ฌผ ํ์ธ์ด ๋ฆ์ด์ง ์ ์์.
๐ก ๊ฐ์ ๋ฐฉํฅ (Action Item)
- Agile/Scrum๊ณผ ๊ฒฐํฉ: CRISP-DM์ ๋จ๊ณ๋ฅผ ์ ์งํ๋, ์คํฌ๋ผ(Scrum)์ด๋ ์นธ๋ฐ(Kanban)์ ๋์
ํ์ฌ ํ ํ์
๊ณผ ์ฐ์ ์์ ๊ด๋ฆฌ๋ฅผ ๋ณด์.
- ์ญํ ์ ์: ์ดํด๊ด๊ณ์, PO(Product Owner), ๋ฐ์ดํฐ ๊ณผํ์ ๋ฑ ํ ์ญํ ์ ๋ช
ํํ ์ ์.
- ๋น ๋ฅธ ๋ฐ๋ณต: ์๋ฒฝํ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ๋ณด๋ค, ๋น ๋ฅด๊ฒ ๋ฐ๋ณต(Iteration)ํ์ฌ ์์ ๊ฐ์น๋ฅผ ์ง์์ ์ผ๋ก ์ ๋ฌ.