잔차는 실제 관측값과 예측값의 사. 즉, 측값에 대한 오차를 의미하기 때문에 낮을 수록 좋음.
잔차를 구하기 위해서는 예측 값을 도출해야함.
잔차분석은 회귀 분석이 적절히 수행됐는지, 모델이 더이터에 적합한지를 평가하기 위해 사용.
잔차의 선형성,정규성, 등분산성, 독립성을 만족해야 모델이 분석에 적합하다고 판단.
1. 잔차의 선형성
잔차의 분산이 동일하다는 가정1.5 ~ 2.5 범위에 있으면 독립으로 판정.추세선은 직선이 기본이기 때문에 분석에 적합하지 않을 수 있음.
때문에 lowess 파라미터를 설정해 분석에 용이하도록 형태를 변경.
하지만, 아직 확실한 선형 구간을 도출하기에는 부족함.
때문에 lineplot을 제공해 그래프 분석이 더 용이하도록 변경
(모든 예측값에서 가운데 점선에 맞춰 잔차가 비슷하게 있어야 한다.
붉은 실선은 잔차의 추세를 의미, 붉은 선이 가운데 점선을 벗어날 수록 선형성이 떨어진다.)
다만 그래프의 가로 길이를 늘릴 수록 선형/비선형 판단이 힘들어짐.
선형 여부를 판단하는 분석
sklearn 패키지
잔차가 정규분포를 따르는지 확인
잔차가 정규분포를 따르면 Q-Q Plot(분위수대조도)에서 점들이 점선을 따라 배치
ols.fit.mes_resid : 평균 제곱 오차를 사용해 그래프를 그리고 Q-Q Plot보다 자세히 잔차의 정규분포를 판별 가능
+- 범위를 생성 후 직선을 그려 판별에 도움을 준다. 또한 텍스트를 제공할 수 있다.
잔차가 정규분포를 따른다면 대략적으로
= 74.0% 내부에 포함되어야 함
Durbuin-Watson 값으로 독립성 확인(1.5 ~ 2.5)
잔차도또는잔차 그래프라고 표현하기도 한다
잔차 분석에서 정규성 분석의 경우
회귀모형을 통해 예측된 모든 값들에 대하여 잔차의 분산이 동일하다는 가정
회귀분석 결과표 하단의 Dubin-Watson 값을 확인
일반적으로 DW값이 1.5 ~ 2.5 범위에 있으면 독립으로 판정
탐색적 데이터 분석 과정에서 모든 독립변수에 대해 왜도와 첨도를 검사
목표 : 데이터의 변수가 정규성을 충족하는지 확인해 신뢰성, 편향성, 정확성, 모델의 안정성 확보
모든 독립변수에 대해 왜도와 첨도를 검사하는 이유
데이터의 분포와 형태를 파악하여 데이터의 특성을 이해하기 위함데이터의 분포 형태와 대칭성, 비대칭성 등을 설명하는 통계적 지표왜도가 크면, 데이터가 더 비대칭적인 형태를 가지며, 이는 이상치(outlier)의 영향이나 데이터 특성을 파악하는데 유용이상치나 분포의 뾰족한 정도를 파악 가능