4주차

Cheoly·2023년 10월 16일

Machine Learning

목록 보기
2/2
post-thumbnail

11일차

타이타닉 생존률 경진대회

EDA

데이터를 분석하여 어떤 feature가 결과의 영향을 크게 주는 지 확인한다. 또한, 새로운 feature를 만들어 데이터의 량을 증가시킨다.

Scaling

수치형 데이터는 Feature별로 숫자 값의 범위가 모두 다르기에 학습할 때 잘못 학습할 염려가 있다. 그렇기에 값의 범위를 feauture내에서 처리하여 값을 반환하여 이러한 문제를 해결할 수 있다. 이것을 Scaling이라고 한다.

Scaling을 할 때도 주의해야할 것은 test 데이터를 scaling할 때 train 데이터로 학습시키고 적용시켜야 한다. train데이터에는 fit_transform을 해주고 test에는 transfrom만 적용시키면 된다.

Scaling 종류

Normalizer
PowerTransformer
QuantileTransformer
StandardScaler
RobustScaler
MinMaxScaler
MaxAbsScaler

Transformer와 Scaler를 동시에 사용해야 할 때는 Transformer를 먼저 사용한 후에 Scaler를 적용해야 데이터의 손상이 거의 없다.

Scaling을 하면 정확도가 높아지지만 모든 상황에서 좋아지는 건 아니다.

가장 많이 사용하는 Scaler는 StandardScaler와 MinMaxScaler이다. StandardScaler는 이상치가 클 때 좋게 작용하지 않을 때가 있다.



4주차의 정리사항은 Titanic ML 정리글로 대체하겠습니다

profile
데이터 엔지니어

0개의 댓글