Day49

김재현·2023년 7월 28일

JUPYTER/DL/ML

목록 보기
26/73

선형회귀분석

잔차분석

잔차는 실제 관측값과 예측값의 사. 즉, 측값에 대한 오차를 의미하기 때문에 낮을 수록 좋음.
잔차를 구하기 위해서는 예측 값을 도출해야함.
잔차분석은 회귀 분석이 적절히 수행됐는지, 모델이 더이터에 적합한지를 평가하기 위해 사용.

잔차의 선형성,정규성, 등분산성, 독립성을 만족해야 모델이 분석에 적합하다고 판단.
1. 잔차의 선형성

  • 잔차의 추세가 예측값(중앙값)에 비슷하게 분포해야한다.
  1. 잔차의 정규성
  • Q-Q plot(분위수대조도)를 사용해 시각화 했을 때 예측값과 비슷하게 분포해야함.
  1. 잔차의 등분산성
  • 회귀모형을 통해 예측된 모든 값들에 대하여 잔차의 분산이 동일하다는 가정
  • 잔차들의 그래프를 시각화하여 잔차들이 일정한 분포를 가지는지 확인
  1. 잔차의 독립성
  • 잔차들이 무작위로 흩어져 있어야함.
  • 회귀분석 결과표 하단의 Dubin-Watson 값을 확인.
  • 일반적으로 DW값이 1.5 ~ 2.5 범위에 있으면 독립으로 판정.

추세선은 직선이 기본이기 때문에 분석에 적합하지 않을 수 있음.
때문에 lowess 파라미터를 설정해 분석에 용이하도록 형태를 변경.
하지만, 아직 확실한 선형 구간을 도출하기에는 부족함.
때문에 lineplot을 제공해 그래프 분석이 더 용이하도록 변경
(모든 예측값에서 가운데 점선에 맞춰 잔차가 비슷하게 있어야 한다.
붉은 실선은 잔차의 추세를 의미, 붉은 선이 가운데 점선을 벗어날 수록 선형성이 떨어진다.)
다만 그래프의 가로 길이를 늘릴 수록 선형/비선형 판단이 힘들어짐.

LDA 분석

선형 여부를 판단하는 분석
sklearn 패키지

잔차의 정규성

잔차가 정규분포를 따르는지 확인
잔차가 정규분포를 따르면 Q-Q Plot(분위수대조도)에서 점들이 점선을 따라 배치

ols.fit.mes_resid : 평균 제곱 오차를 사용해 그래프를 그리고 Q-Q Plot보다 자세히 잔차의 정규분포를 판별 가능
+- 범위를 생성 후 직선을 그려 판별에 도움을 준다. 또한 텍스트를 제공할 수 있다.
잔차가 정규분포를 따른다면 대략적으로
MSE\sqrt{MSE} = 74.0% 내부에 포함되어야 함
Durbuin-Watson 값으로 독립성 확인(1.5 ~ 2.5)

잔차도 또는 잔차 그래프라고 표현하기도 한다

잔차 분석에서 정규성 분석의 경우

잔차의 등분산성

회귀모형을 통해 예측된 모든 값들에 대하여 잔차의 분산이 동일하다는 가정

잔차의 독립성

회귀분석 결과표 하단의 Dubin-Watson 값을 확인
일반적으로 DW값이 1.5 ~ 2.5 범위에 있으면 독립으로 판정


정규분포 가정

탐색적 데이터 분석 과정에서 모든 독립변수에 대해 왜도와 첨도를 검사
목표 : 데이터의 변수가 정규성을 충족하는지 확인해 신뢰성, 편향성, 정확성, 모델의 안정성 확보

모든 독립변수에 대해 왜도와 첨도를 검사하는 이유

  • 데이터의 분포와 형태를 파악하여 데이터의 특성을 이해하기 위함
  • 왜도와 첨도는 데이터의 분포 형태와 대칭성, 비대칭성 등을 설명하는 통계적 지표
    • 왜도(Skewness)
      데이터의 왜도가 크면, 데이터가 더 비대칭적인 형태를 가지며, 이는 이상치(outlier)의 영향이나 데이터 특성을 파악하는데 유용
    • 첨도(Kurtosis)
      데이터의 첨도를 검사함으로써 이상치나 분포의 뾰족한 정도를 파악 가능

0개의 댓글