[AI] 데이터 전처리 방법

Bora Kwon·2022년 4월 11일
0

개발일지

목록 보기
11/14

Data Preprocessing 데이터 전처리

데이터를 분석하기 용이하게 고치는 모든 작업을 말한다.

데이터 전처리 종류

  • Min-Max Scaling : 어떤 값을 넣어도 범위가 0~1 사이로 바뀌게 하는
    [x-Min(X)]/[Max(X)-Min(X)]
  • Standard Scaling : 데이터의 평균이 0, 표준 편차가 1이 되도록 스케일링 한다. z-score
  • Sampling : 클래스의 불균형 문제를 해결한다. Oversampling(샘플 늘림), Undersampling(샘플 줄임)
    SMOTE(Synthetic Minority Oversampling Technique) : 데이터 손실이 없고 과적합을 완화한다.
  • Dimensionality Reduction : 차원을 축소한다.
    PCA(Principal Component Analysis, 주 성분 분석) 기법 : 어느 축으로 축소했을 때 성질이 가장 잘 살아있는가 판단함
  • Categorical Variable to Numeric Variable : Label Encoding, One-hot Encoding
    범주형 데이터의 경우 0, 1, 2 나 a, b, c 등으로 카테고리화 함.
    Label Encoding은 0, 1, 2 숫자를 주는 방식이고, One-hot Encoding은 n개 범주형 데이터를 n*n 비트 벡터로 표현하여 벡터 내적을 활용할 수 있음.

sklearn.preprocessing 패키지 안에 전처리와 관련된 기능들이 포함되어 있다.

profile
Software Developer

0개의 댓글