강의 링크 - How to Win a Data Science Competition
5. Feature preprocessing and generation with respect to models
내가 번역하면서 정리하다 보니 창작을 하게 되는거 같지만.
feature 전처리
는 모델에 데이터를 적용하기 위한 필수
도구다.
feature 생성
은 경쟁에서 크게 도움을 주고
때로는 필요한 우위를 제공
할 수있는 매우 강력한 기술이다.
feature 전처리와 생성은 모두 사용하려는 모델에 따라 다르다.
각 관찰대상에서 발견되는 고유한 속성을 의미한다.
[참고]
프로그래밍에서는 attribute라는 단어를 사용하지만, 데이터 분석에서는 feature라는 표현을 사용한다.
전처리는 데이터를 가공하는 방법입니다.
각 유형의 feature에는 모델을 향상시키기 위한 고유한 전처리 방법이 있다.
즉, 어떤 모델
을 사용할 것인가에 따라 전처리 방법이 다르다.
Pclass는 비선형적이다. (1 -> 0 -> 1 이기 때문에)
선형모델은 비선형적인 Pclass로 부터 좋은 결과를 얻을 수 없다.
이를 해결하기 위해 다음과 같이 전처리할 수 있다. (one-hot-encoding)
Random Forest는
feature 분리하고 알맞는 확률을 예측할 수 있기 때문에 One-Hot-Encoding이 필요없다.
Random Forest 모델은 one hot encoding을 진행할 필요가 없다.
[참고]
feature 전처리는 크게 2가지
로 나뉜다. 1. 트리형 모델
, 2. 트리가 아닌 모델
서로 다른 feature를 조합하거나, 기존 feature를 가공하여 새로운 feature를 만드는 방법이다.
일일 판매 예측이 Week_number와, Day_of_week를 생성하는데 도움을 줄 수 있다.
선형, 트리 모델 모두에 도움이 된다.
Numeric features는 수치로 표현한 자료입니다.
스케일링은 데이터의 범위를 고정된 범위로 변환하는 방법입니다.
MinMaxScaler
최소가 0, 최대가 1이 되도록 변환
StandardScaler
정규분포를 따르도록 변환합니다.
RobustScaler
이상치 제거, 중앙값, IQR(사분위 범위) 사용
MaxAbsScaler
최대 절대값과 0이 1, 0이 되도록 변환
일반적으로 non-tree 모델을 사용할때 선택한 변환방법을 모든 Numeric feature에 적용합니다.