데이터 전처리는 무조건 한다.
왜냐하면 분석에서 요구하는 형태와 크기가 다를 수 있기 때문
존재하지 않고 비어 있는 상태
DB에서의 NULL값
데이터를 채울 필요가 있다.
수작업
특정값
평균값
가장 가능성이 높은 값(회귀분석, 보간법)
해당 데이터 행을 제거
이상하게 튀어 있는 거
탐지 방법: 산점도나 박스플롯 그려보기
수치 방법:
기타 잡음 요소
데이터 오류 (자료형 다르다거나 범위 넘어간다거나)
중복 데이터도 오류에 포함
DB정규화 vs 비정규화
데이터레벨의 차이
구간화
데이터 값을 구간화하고 구간의 평균, 중앙, 경계값을 사용
회귀
회귀 함수로 데이터를 평활화
군집화
유사한 값끼리 그룹화하여 군집의 센터값(ex 평균)을 사용