sample Data의 Distibution을 확인하는 것이 주 목적
Categorical data의 경우 occurence, Frequency, tabulation등을 활용할 수 있다.
Histogram 혹은 Pie chart, Stem-leaf plot, Boxplot, QQplot 등을 사용한다.
만약 값이 너무 다양하다면, Binning, Tabulation등을 활용 할 수도 있다.
Cleaning
noise 제거, inconsistency를 보정하는 과정
오류를 다듬는 과정이라고 보면 됨
Missing Values
Ignore the tuple (결측치가 있는 데이터 삭제)
Manual Fill (수동으로 입력)
Global Constant (“Unknown”)
Imputation (All mean, Class mean, Inference mean, Regrssion 등)
Noisy data
큰 방향성에서 벗어난 random error, variance를 포함하는 데이터
Intergration
여러개로 나누어져 있는 데이터들을 분석하기 편하게 하나로 합치는 과정
Transformation
데이터의 형태를 변환하는 작업, Scaling이라고 부르기도 함
Reduction
데이터를 의미있게 줄이는 것