각 데이터에 평균을 빼고 표준편차를 나누어 평균을 0, 표준편차를 1로 조정하는 방법
- 함수:
sklearn.preprocessing.StandardScaler
- 메소드
fit: 데이터학습(평균과 표준편차를 계산)transform: 데이터 스케일링 진행- 속성
mean_: 데이터의 평균 값scale_,var_: 데이터의 표준 편차,분산 값n_features_in_: fit 할 때 들어간 변수 개수feature_names_in_: fit 할 때 들어간 변수 이름n_samples_seen_: fit 할 때 들어간 데이터의 개수
데이터를 0과 1 사이의 값으로 조정 (min = 0, max = 1)
- 함수:
sklearn.preprocessing.MinMaxScaler
- (표준화와 공통인 것은 제외)
- 속성
data_min_: 원 데이터의 최소 값data_max_: 원 데이터의 최대 값data_range_: 원 데이터의 최대-최소 범위
import seaborn as sns
sns.pairplot(titaninc_df[['Age','Fare']])

titaninc_df[['Age','Fare']].describe()

from sklearn.preprocessing import MinMaxScaler, StandardScaler
mm_sc = MinMaxScaler() # normalization
sd_sc = StandardScaler() # standardization
titanic_df['Age_mean_mm_sc'] = mm_sc.fit_transform(titanic_df[['Age_mean']])
titanic_df['Fare_sd_sc'] = sd_sc.fit_transform(titanic_df[['Fare']])
titanic_df.head()

중앙값과 IQR을 이용한 스케일링
- 함수:
sklearn.preprocessing.RobustScaler
- 속성
center_: 훈련 데이터의 중앙값