데이터 전처리

suji·2022년 12월 13일
0

머신러닝

목록 보기
8/14

데이터 전처리(Preprocessing)

1. 결손값 처리(Null/NaN 처리)

2. 스케일러 적용

MinMaxScaler(0,1), StandardScaler(평균0, 분산1), RobustScaler(사분위수)

3. 이상치 확인 -> 제거

sns.boxplot으로 시각화 하면 파악하기 편하다

# 특이 데이터 - boxplot
import seaborn as sns
plt.figure(figsize=(8,5))
sns.boxplot(data=raw_data[['V13', 'V14', 'V15']]);


4. feature 선택 추출 및 가공

  • somte oversampling --> 불균형 데이터셋에서 사용
profile
learning Data Science

0개의 댓글