KDD 분석 vs CRISP-DM

아따맘마·2020년 11월 19일
2

빅데이터

목록 보기
9/9

KDD 분석이란?

데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스.
데이터마이닝, 머신러닝, 인공지능, 패턴인식, 데이터 시각화 등에 응용

절차

KDD 분석의 과정은 다음과 같다.

Selection (데이터셋 준비)

  • 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로세스 목표 설정이 필수
  • 데이터베이스 또는 원시데이터에서 분석에 필요한 데이터 선택
  • 데이터마이닝에 필요한 목표데이터를 구성하여 분석에 활용

Preprocessing(데이터 전처리)

  • 추출된 분석 데이터셋에서 잡음, 이상치 그리고 결측치를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터셋 정제
  • 추가로 요구되는 데이터셋이 필요한 경우 Selection 프로세스 재실행

Transformation(데이터 변환)

  • 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 데이터에 변경
  • 학습용 및 검증용 데이터로 데이터를 분리

Data Mining(데이터 마이닝)

  • 학습용 데이터를 이용하여 분석 목적에 맞는 데이터마이닝 기법을 선택하고 적절한 알고리즘을 적용하여 데이터 마이닝 작업 실행
  • 필요에 따라 PreprocessingTransformation 프로세스를 추가로 실행하여 최적의 결과 산출

Interpretation / Evaluation (결과 평가)

  • 데이터마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성 확인
  • 데이터마이닝을 통해 발견된 지식을 업무에 활용하기 위한 방안 마련
  • 필요에 따라 전 모든 프로세스를 반복 수행

CRISP-DM

크리스피(X) 크리스포(O)
CRISP-DM은 계층적 프로세스 모델로써 4개의 레벨로 구성

구조

  • 최상위 레벨은 여러 개의 단계(Phases)로 구성.

  • 각 단계는 일반화 태스크(Generic Tasks)를 포함. 일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위

  • 일반화 태스크는 세분화 태스크(Specialized Tasks)로 구성

    데이터 정제(Data Cleaning)라는 일반화 태스크범주형 데이터 정제연속형 데이터 정제와 같은 세분화 태스크로 구성

  • 마지막 레벨은 프로세스 실행(Process Instances)이며 이는 데이터마이닝을 위 한 구체적인 실행을 포함

CRISP-DM 프로세스

  • CRISP-DM은 6단계로 구성되며, 각 단계는 단방향으로 구성되지 않고 단계 간 피드백을 통해 단계별 완성도를 높이게 되어 있다.

Business Understanding

  • 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해
  • 비즈니스의 목적과 데이터 마이닝의 목표를 수립하고 프로젝트 계획을 수립

Data Understanding

  • 분석을 위한 데이터를 수집하고 데이터 속성을 이해
  • 분석에 필요한 Initial Data를 분석하고 품질을 검토하여 분석용 데이터 확보를 위한 준비단계.
  • 데이터에 숨겨져있는 인사이트를 발견하는 단계

Data Preparation

  • 데이터를 획득하여 선별, 통합, 정재과정을 통해 분석기법에 적합한 분석용 Dataset을 편성

Modeling

  • 다양한 모델링 기법과 알고리즘을 활용하여 모델링을 하고 설계된 테스트 계획에 따라 평가
  • 모델링 과정에서 사용되는 피라미터를 최적화
  • 데이터셋이 추가로 필요한 경우 데이터 준비단계를 반복 수행 가능.
  • 모델링 결과를 테스트용 데이터셋으로 평가하여 모델링 과적합 문제 확인

Evaluation

  • 분석결과를 평가하고 과정을 리뷰

Deployment

  • 모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획 수립
  • 전개 및 모니터링 계획을 수립하고 유지보수 계획 마련 및 과제 종료

KDD와 CRISP-DM 비교

profile
늦게 출발했지만 꾸준히 달려서 도착지점에 무사히 도달하자

0개의 댓글