1) 데이터셋 선택 (Selection)
- 목표데이터(target data)를 구성 : 어떤 데이터를 쓸 것인지
2) 데이터 전처리 (Preprocessing)
- noise, outiler 제거
3) 데이터 변환 (Transformation)
- 데이터를 정규화 하는 과정
- training data, test data로 데이터 분리
4) 데이터 마이닝 (Data Mining)
- 분석 목적에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴찾기, 데이터 분류, 예측작업
- 필요에 따라 데이터 전처리와 변환 프로세스를 추가 실행
5) 데이터 마이닝 결과 평가 (Interpretation/Evaluation)
- 분석 결과에 대한 해석/평가, 분석 목적과의 일치성 확인
- 발견된 지식을 업무에 활용
예시
1. Data Cleaning 과정 : 주식 시장이 닫아 있는 날이나 혹은 중간에 상장 폐지나 종목명 변경된 종목들 제거
2. Data integration : 종가 + 일별 등락률을 합쳐 하나의 DB에 저장
3. Data Transformation : Min-Max normalization을 이용하여 각 날짜 별 종가들에 대해 전처리
4. Data Reduction : 모든 주식 종목을 하지 않고 사용하고자 하는 보조지표들을 분석하여 적절한 종목 100개를 추린다.