KDD 분석이란?
데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스.
데이터마이닝, 머신러닝, 인공지능, 패턴인식, 데이터 시각화 등에 응용
절차
KDD 분석의 과정은 다음과 같다.
![](https://velog.velcdn.com/images%2Flsmmay322%2Fpost%2F3c9f9aa5-7dd6-4bc9-a66a-47a35e8b06a7%2FUntitled%20Diagram%20(34).jpg)
Selection (데이터셋 준비)
- 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로세스 목표 설정이 필수
- 데이터베이스 또는 원시데이터에서 분석에 필요한 데이터 선택
- 데이터마이닝에 필요한 목표데이터를 구성하여 분석에 활용
Preprocessing(데이터 전처리)
- 추출된 분석 데이터셋에서 잡음, 이상치 그리고 결측치를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터셋 정제
- 추가로 요구되는 데이터셋이 필요한 경우
Selection
프로세스 재실행
- 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 데이터에 변경
- 학습용 및 검증용 데이터로 데이터를 분리
Data Mining(데이터 마이닝)
- 학습용 데이터를 이용하여 분석 목적에 맞는 데이터마이닝 기법을 선택하고 적절한 알고리즘을 적용하여 데이터 마이닝 작업 실행
- 필요에 따라
Preprocessing
와 Transformation
프로세스를 추가로 실행하여 최적의 결과 산출
Interpretation / Evaluation (결과 평가)
- 데이터마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성 확인
- 데이터마이닝을 통해 발견된 지식을 업무에 활용하기 위한 방안 마련
- 필요에 따라
전 모든 프로세스
를 반복 수행
CRISP-DM
크리스피(X) 크리스포(O)
CRISP-DM은 계층적 프로세스 모델로써 4개의 레벨로 구성
구조
![](https://velog.velcdn.com/images%2Flsmmay322%2Fpost%2Fa7480a7e-753c-42ca-803e-67181e4857f6%2FUntitled%20Diagram%20(35).jpg)
-
최상위 레벨은 여러 개의 단계(Phases)
로 구성.
-
각 단계는 일반화 태스크(Generic Tasks)
를 포함. 일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위
-
일반화 태스크는 세분화 태스크(Specialized Tasks)
로 구성
데이터 정제(Data Cleaning)라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성
-
마지막 레벨은 프로세스 실행(Process Instances)
이며 이는 데이터마이닝을 위 한 구체적인 실행을 포함
CRISP-DM 프로세스
- CRISP-DM은 6단계로 구성되며, 각 단계는 단방향으로 구성되지 않고 단계 간 피드백을 통해 단계별 완성도를 높이게 되어 있다.
![](https://velog.velcdn.com/images%2Flsmmay322%2Fpost%2Fc221e7eb-e736-4f09-858a-6016284fd867%2FUntitled%20Diagram%20(10).jpg)
Business Understanding
- 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해
- 비즈니스의 목적과 데이터 마이닝의 목표를 수립하고 프로젝트 계획을 수립
Data Understanding
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해
- 분석에 필요한 Initial Data를 분석하고 품질을 검토하여 분석용 데이터 확보를 위한 준비단계.
- 데이터에 숨겨져있는 인사이트를 발견하는 단계
Data Preparation
- 데이터를 획득하여 선별, 통합, 정재과정을 통해 분석기법에 적합한 분석용 Dataset을 편성
Modeling
- 다양한 모델링 기법과 알고리즘을 활용하여 모델링을 하고 설계된 테스트 계획에 따라 평가
- 모델링 과정에서 사용되는 피라미터를 최적화
- 데이터셋이 추가로 필요한 경우 데이터 준비단계를 반복 수행 가능.
- 모델링 결과를 테스트용 데이터셋으로 평가하여 모델링 과적합 문제 확인
Evaluation
Deployment
- 모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획 수립
- 전개 및 모니터링 계획을 수립하고 유지보수 계획 마련 및 과제 종료
KDD와 CRISP-DM 비교
![](https://velog.velcdn.com/images%2Flsmmay322%2Fpost%2F805a7f50-34bc-4045-8aaa-10735cd814dd%2FUntitled%20Diagram%20(36).jpg)