데이터 전처리 (Data preprocessing)

waternet·2022년 9월 3일
0

데이터 전처리 (Data preprocessing)

원시 데이터(raw data)를 정제 데이터(clean data)로 만드는 작업

전처리가 필요한 이유

부정확한 데이터, missing value (누락)
잡음이 있는 데이터, outlier (이상치) 등의
부적합 데이터 처리


데이터 전처리 작업

1) 데이터 정제 (Data Cleaning) - Missing value, Noisy data, Outliers 처리
2) 데이터 통합 (Data Itegration) - 다양한 소스에서 얻은 데이터를 정리
3) 데이터 변환 (Data Transformation) - Normalization, Aggregation, Generalization
4) 데이터 정리 (Data Reduction) - 중복제거, 효율적 재배치

1) 데이터 정제 (Data Cleaning)

  • 결측값 (Missing Value)
    해당 데이터 행(row)를 제거
    특정 상수로 채우기
    동일한 속성값의 평균값 (혹은 중앙값) 사용

  • 잡음값 (Noisy Value)
    비닝(Binning) = 깡통을 만들어서 집어 넣기, 그루핑
    회귀(Regression)
    이상점 분석(Outlier Analysis)
    데이터 평활화

  • 이상치 (Outliers)
    1) 표준편차 3 이상
    2) IQR(InterQuartile Range, 사분범위) 활용

2) 데이터 통합 (Data Itegration)

다양한 소스에서 얻은 데이터를 정리

3) 데이터 변환 (Data Transformation)

Normalization - 동일한 범위로 변환 (예: 0~1사이 비율로 변환)
Aggregation - 2개이상의 feature를 하나로 조합 (예: 2개의 범주를 조합하여 새로운 그룹을 생성)
Generalization - 저수준의 속성을 고수준의 표준으로 변환

4) 데이터 정리 (Data Reduction)

중복제거
효율적 재배치

profile
wanna be Crypto Warrior

0개의 댓글