데이터 마이닝

jaeha_lee·2021년 4월 12일
0

KDD 분석 절차 (5가지 프로세스)

1) 데이터셋 선택 (Selection)

- 목표데이터(target data)를 구성 : 어떤 데이터를 쓸 것인지

2) 데이터 전처리 (Preprocessing)

  - noise, outiler 제거

3) 데이터 변환 (Transformation)

  - 데이터를 정규화 하는 과정

  - training data, test data로 데이터 분리

4) 데이터 마이닝 (Data Mining)

  - 분석 목적에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴찾기, 데이터 분류, 예측작업

  - 필요에 따라 데이터 전처리와 변환 프로세스를 추가 실행

5) 데이터 마이닝 결과 평가 (Interpretation/Evaluation)

  - 분석 결과에 대한 해석/평가, 분석 목적과의 일치성 확인

  - 발견된 지식을 업무에 활용

  • Descriptive Mining (Clustering, Association Rule)
    • 데이터에 숨어있는 관련성을 요약하는 패턴을 찾아내는 것
  • Predictive Mining (Decision Tree) : 예측 모델링
    • 목표 변수를 설명 변수의 함수 모델로 생성하는 작업
    • 이산형 목표 변수에 사용하는 classification과 연속형 목표 변수에 사용하는 regression 유형이 있다.

예시
1. Data Cleaning 과정 : 주식 시장이 닫아 있는 날이나 혹은 중간에 상장 폐지나 종목명 변경된 종목들 제거
2. Data integration : 종가 + 일별 등락률을 합쳐 하나의 DB에 저장
3. Data Transformation : Min-Max normalization을 이용하여 각 날짜 별 종가들에 대해 전처리
4. Data Reduction : 모든 주식 종목을 하지 않고 사용하고자 하는 보조지표들을 분석하여 적절한 종목 100개를 추린다.

0개의 댓글