머신 러닝으로 할 수 있는 것들 중 하나는 데이터를 특성에 따라 분류 (Classification) 하는 것이다.
Classification의 과정
- 샘플을 두 집합으로 분리한다.
- training set : 정답이 기재된 샘플
- test set : 정답이 기재되지 않은 샘플
- 분류기를 설계한다. (→ 분류를 위한 모델을 선정한다.)
- 샘플에서 특징(feature)을 추출하거나 가공한다. (→ feature engineering)
- training set을 분류기에 넣어서 학습한다.
- test set으로 분류기의 성능을 평가한다.