머신 러닝에서 데이터는 정말 중요하다!
데이터를 분류하는 특징을 찾고 그 특징을 사람에게 제공
사람의 결정을 도울 수 있는 데이터 마이닝
Binary feature
Nominal feature
Discrete counts
Ordinal features
Continuous/real-valued features
중요한 것은 features의 분류가 명확하게 나뉘지 않는다는 것
categorical feature <-> numerical feature (서로 변환 가능)
어떤 머신러닝을 적용하려면 데이터 종류에 따라 활용방법을 변형 (데이터를 적절한 종류로 변환(ex. categorical -> numerical)하여 머신러닝에 적용한다고 이해함)
Feature aggregation: 특징 통합
Feature selection: 특정 선택
Numerical to categorical (이름이 없어서 일단 임시로...)
Feature scaling: 특징 크기 조절
여러 feature의 평균 값을 활용