데이터 전처리의 필요성
기타 잡음(Noise)처리로 구간화, 회귀, 군집화를 한다.
-- 중복처리. (DB의 정규화)
-- 28, 스물여덟 같이 개체의 식별
통합(Integration) : 결합(Join)
축소(Reduction) : Filtering(필요한 데이터만 추출하는 법),Sampling(전수조사vs모집단을 대표하는 표본조사), 차원의 축소(차원의 저주 때문에), 연구 결과를 왜곡시키는 오차(by 조사자, 면접자, 응답자) 조심
-- Simple Random Sampling: 단순임의추출
-- Stratified Random Sampling: 층화추출. 데이터 내에서 지정한 그룹 별로 지정한 비율 만큼의 데이터를 임의로 선택
-- Systematic Sampling: 계통추출. k 번째 요소를 표본으로 선정. 패턴 가지고 있으면 모집단 반영 못한다.
-- Cluster Sampling : 군집추출, 집락추출. 군집간 동질성, 군집내 이질성인 경우 사용.
-- Training-Test Data Split
변환(Transformation)
-- Pivot, Unpivot(wide form->long form)
-- 파생변수 : 새로운 변수를 만든다. 분석가의 주관성이 들어갈 수 있다. 논리적인 타당성을 갖춰야 한다. 주 구매 매장.
-- 요약변수 : 집계. 원 데이터를 분석 Needs에 맞게 종합한 변수. 총 구매 금액, 매장별 방문 횟수
-- Normalization : 데이터 속성 값을 -1~1.0으로 들도록 하는 기법. (Min-max scaling, Z-score 변환, Standard Scaling, Max Absolute Scaling, Robust Scaling...)
-- Positive Skewed는 sqrt(x)->log->1/x
-- Negatively Skewed는 sqrt(max(x+1)-x)->log(max(x+1)-x)->1/(max(x+1)-x)