정규성 가정은 통계적 검정, 회귀분석 등 분석을 진행하기 전에 데이터가 정규분포를 따르는지를 검정하는 것으로 데이터 자체의 정규성을 확인하는 과정
중심극한정리(Central Limit Theorem)
동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다. 이때 표본분포의 평균은 모집단의 모평균과 동일하며 표준편차는 모집단의 모표준편차를 표본크기의 제곱근으로 나눈것과 같다.
정규성 검정 종류
샤피로-윌크 검정(Shaprio-wilks Test)
-표본수(n)가 2000개 미만인 데이터셋에 적합하다.
콜모고로프 스미르노프 검정(Kolmogorove-Smirnov Test)
-표본수(n)가 2000개 초과인 데이터셋에 적합하다.
Q-Q플롯 (Quantile-Quantile Plot)
-데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법으로 표본수(n)가 소규모일 경우 적합하다.
데이터셋이 정규붑ㄴ포를 따른다는 귀무가설(H0)을 기각하고 대립가설이 채택된다면 (p<0.01 || p=0.05) 해당 데이텃셋은 정규분포를 따르지 않음으로 증명된다.
회귀분석에서 독립변수와 종속변수의 관계를 결정하는 최적의 회귀선은 실측치와 예측치의 차이인 잔차를 가장 작게 해주는 선으로 잔차의 합은 0이며 잔차는 추세, 특정 패턴을 가지고 있지 않다.
잔차의 정규성 진단
신뢰구간 추정과 가설검증을 정확하게 하기 위해 Q-Q Plot과 같은 시각화 도표를 통해 정규분포와 잔차의 분포를 비교한다.
잔차의 등분산성 진단
잔차의 분산이 특정 패턴이 없이 순서와 무관하게 일정한지 등분산성을 진단한다.
잔차의 독립성 진단
잔차의 독립성이란 자기상관(auto correlation)의 여부를 판단하는 것이며 시점 순서대로 그래프를 그리거나 더빈-왓슨 검정(Durbin-Watson Test)으로 패턴이 없다면 독립성을 충족한다고 할 수 있다. 만일 독립성이 위배가 된다면 시계열 분석(Time Series)을 통해 회귀분석을 진행해야한다.