
데이터를 분석하여 어떤 feature가 결과의 영향을 크게 주는 지 확인한다. 또한, 새로운 feature를 만들어 데이터의 량을 증가시킨다.
수치형 데이터는 Feature별로 숫자 값의 범위가 모두 다르기에 학습할 때 잘못 학습할 염려가 있다. 그렇기에 값의 범위를 feauture내에서 처리하여 값을 반환하여 이러한 문제를 해결할 수 있다. 이것을 Scaling이라고 한다.
Scaling을 할 때도 주의해야할 것은 test 데이터를 scaling할 때 train 데이터로 학습시키고 적용시켜야 한다. train데이터에는 fit_transform을 해주고 test에는 transfrom만 적용시키면 된다.
Normalizer
PowerTransformer
QuantileTransformer
StandardScaler
RobustScaler
MinMaxScaler
MaxAbsScaler
Transformer와 Scaler를 동시에 사용해야 할 때는 Transformer를 먼저 사용한 후에 Scaler를 적용해야 데이터의 손상이 거의 없다.
Scaling을 하면 정확도가 높아지지만 모든 상황에서 좋아지는 건 아니다.
가장 많이 사용하는 Scaler는 StandardScaler와 MinMaxScaler이다. StandardScaler는 이상치가 클 때 좋게 작용하지 않을 때가 있다.
4주차의 정리사항은 Titanic ML 정리글로 대체하겠습니다