결측값 (Missing Value)
: 존재하지 않고 비어있는 상태, DB에서 NULL값인 경우.
후속 분석 결과에 영향이 최소화되도록 데이터를 채울 필요가 있다.
이상값 (Outlier)
: 대표적인 잡음 요소. 이상값으로 판단되는 값에 의해 경향성 훼손이 발생.
아주 드물게 나타나는 특이값, 오류(값 오류, 샘플링 오류)
탐지 방법
처리방법
Tukey : 기준은 Q1, Q3 : 상한,하한을 벗어나는 값을 이상값으로 간주, 제거 가능

Carling : 기준은 중앙값 (Media) : 상한,하한을 벗어나는 값을 이상값으로 간주, 제거 가능

정규분포와 비교
잡음
: 데이터에 오류가 포함된 경우

표본의 요건 : 모집단을 대표해야함
표본 오차(Sampling Error)
표본추출의 방법 : 4가지 구분하고 특히 층화, 집략추출 공통/차이점에 대해 기억해둘 필요가 있음


4, 집략 추출(Cluster Sampling)


개념
입력 데이터가 정규를 따르지 않는 경우, 정규분포 혹은 정규분포에 가깝게 변환하는 기법
방법
Positively Skewed (오른쪽 꼬리 긴 그래프) : Sqrt(x) -> log10(x) -> 1/x

Negativly Skewed (왼꼬리 긴 그래프) : log변환

종속변수 증가가 독립변수 증가보다 급격할 때 : log변환 시도
종속변수 감소가 독립변수 증가보다 급격할 때 : 제곱(square)변환 시
