데이터로부터 모델을 만드는 단계
(1) 데이터 수집
- 공개된 데이터 소스
- 직접 데이터를 수집
- 직접 조사, 실험, 시뮬레이션을 통해 원하는 데이터 생성
(2) 데이터 전처리
- 데이터가 충분 : 누락된 데이터 제거 (데이터 스크리닝)
1. 특이점 제거
2. 데이터 변환 : 머신러닝에 적합한 값으로 변환
(1) 표준화 : 가우시안분포, 평균의 0, 편차는 1
(2) 정규화 : 데이터 범위를 0 과 1사이로 한정
(3) 이산화 : 의사결정트리, 나이브 베이즈 기법등
3. 데이터 축소 방법 : 예측력이 떨어지는 속성 자체를 제거하거나 고차원의 데이터를 저차원으로 변환
- 무작위 데이터 추출
- 성층법
- 데이터 제한적 : 누락된 값 채워줌
(3) 데이터 학습 : 학습 방법과 알고리즘 선택
- 학습방법 : 지도학습, 비지도학습(자율학습), 강화학습
- 알고리즘 : 회귀분석, 분류, 클러스터링, 서포트벡터머신, 의사결정트리, 나이브 베이즈 분류
(4) 모델 평가
- 모델 완성후 모델 평가를 위해 데이터를 학습데이터와 검증데이터로 나눔, 비율은 7:3이 적당
- 데이터가 충분하지 못할 경우 교차평가 시행
만들어진 모델을 적용하는 단계