원시 데이터(raw data)를 정제 데이터(clean data)로 만드는 작업
부정확한 데이터, missing value (누락)
잡음이 있는 데이터, outlier (이상치) 등의
부적합 데이터 처리
1) 데이터 정제 (Data Cleaning) - Missing value, Noisy data, Outliers 처리
2) 데이터 통합 (Data Itegration) - 다양한 소스에서 얻은 데이터를 정리
3) 데이터 변환 (Data Transformation) - Normalization, Aggregation, Generalization
4) 데이터 정리 (Data Reduction) - 중복제거, 효율적 재배치
1) 데이터 정제 (Data Cleaning)
결측값 (Missing Value)
해당 데이터 행(row)를 제거
특정 상수로 채우기
동일한 속성값의 평균값 (혹은 중앙값) 사용
잡음값 (Noisy Value)
비닝(Binning) = 깡통을 만들어서 집어 넣기, 그루핑
회귀(Regression)
이상점 분석(Outlier Analysis)
데이터 평활화
이상치 (Outliers)
1) 표준편차 3 이상
2) IQR(InterQuartile Range, 사분범위) 활용
다양한 소스에서 얻은 데이터를 정리
Normalization - 동일한 범위로 변환 (예: 0~1사이 비율로 변환)
Aggregation - 2개이상의 feature를 하나로 조합 (예: 2개의 범주를 조합하여 새로운 그룹을 생성)
Generalization - 저수준의 속성을 고수준의 표준으로 변환
중복제거
효율적 재배치