수집된 데이터를 분석에 적합한 데이터로 전처리하는 과정이 필요합니다.
데이터 전처리는 가장 많은 시간이 소요되는 작업인것과 동시에 중요한 작업입니다.
Data Integration : 여러 source의 데이터를 하나의 데이터로 통합하는 방법
Data Cleaning : 데이터에 존재하는 여러 문제점을 교정하는 방법
Data Transformation : 정규화, 이산화 등의 방법으로 데이터를 변환하는 방법
Data Reduction : 샘플링, 차원 축소(Dimension Reduction) 등의 기법으로 데이터 크기를 축소하는 방법
Noise
Artifact
Precision
Bias
Outlier
(Outlier는 분석 목적에 따라 취급이 다릅니다.)
대부분의 데이터와 다른 특성을 보이거나, 특정 속성의 값이 유별난 데이터를 의미
Outlier Detection : Outlier 자체를 탐지하는게 목표 → Anomaly Detection 이라고도 함.
Inconsistent Value
(해당 부분을 주의해야 합니다 ㅎㅎ 👍)
Duplicate
감사합니당. 😄👍
오오! 이상치가 분석 목적에 따라 달라질 수 있다는 걸 이번에 처음 알았네요! 좋은 정보 감사합니당 😆