Data Preprocessing 데이터 전처리
데이터를 분석하기 용이하게 고치는 모든 작업을 말한다.
데이터 전처리 종류
- Min-Max Scaling : 어떤 값을 넣어도 범위가 0~1 사이로 바뀌게 하는
[x-Min(X)]/[Max(X)-Min(X)]
- Standard Scaling : 데이터의 평균이 0, 표준 편차가 1이 되도록 스케일링 한다. z-score
- Sampling : 클래스의 불균형 문제를 해결한다. Oversampling(샘플 늘림), Undersampling(샘플 줄임)
SMOTE(Synthetic Minority Oversampling Technique) : 데이터 손실이 없고 과적합을 완화한다.
- Dimensionality Reduction : 차원을 축소한다.
PCA(Principal Component Analysis, 주 성분 분석) 기법 : 어느 축으로 축소했을 때 성질이 가장 잘 살아있는가 판단함
- Categorical Variable to Numeric Variable : Label Encoding, One-hot Encoding
범주형 데이터의 경우 0, 1, 2 나 a, b, c 등으로 카테고리화 함.
Label Encoding은 0, 1, 2 숫자를 주는 방식이고, One-hot Encoding은 n개 범주형 데이터를 n*n 비트 벡터로 표현하여 벡터 내적을 활용할 수 있음.
sklearn.preprocessing 패키지 안에 전처리와 관련된 기능들이 포함되어 있다.