Day58

김재현·2023년 8월 10일

JUPYTER/DL/ML

목록 보기
35/73

선형회귀분석 설명

회귀분석에서는 범주형 데이터는 제외(object 제외)
선형회귀분석 : 어떤 결론을 내는데 가장 크게 영향을 주는 변수를 찾아내는 과정

회귀분석

  • 모듈 myOls 를 통해 R-squared, pvalue가 0.05를 넘지 않을 것, Dubin-Watson 확인
  • 잔차, zscore를 분석.
  • 잔차의 등분산성을 분석.
    • Q-Q Plot을 사용해 잔차의 정규성 확인 - 이를 통해 분석의 정확성을 그래프로 확인 후 판단.
      잔차를 확인하기 위한 Kolmogorov Smirnov 검정 진행.
      등분산성 확인을 위한 브로이슈 패건 검정 진행.
      이후 분석 신뢰성을 판단

PCA분석은 무조건 스케일링 진행.


선형회귀분석 과정

데이터 전처리

  • 결측치, 이상치 정제
  • 데이터 형식(dtypes)

회귀분석

  • 분석을 통한 R-squared, pvalue, Durbin-Watson 값 확인
    • R-squared 값으로 설명력 확인
    • Durbuin-Watson 값으로 독립성 확인(1.5 ~ 2.5 사이)
    • pvalue 값으로 귀무가설, 대립가설 유의미성 확인
  • 결과보고
  • 잔차분석
    R-squared가 높아도 유의미성과 신뢰성을 확신할 수 없기 때문
    • Q-Q Plot을 통한 정규성 확인
    • 정규성 판단을 위한 Kolmogorov Smirnov 검정
      표본 수가 50개 이상인 경우 사용(샤피로 검정은 50개 미만)
    • 잔차의 등분산성을 위한 브로이슈 패건 검정
    • 정규분포 가정은 진행해도됨
      최근 잔차분석을 통한 정규성 검정보다 더 많이 인용되고 있는 기준이기 때문
      탐색적 데이터 분석 과정에서 모든 독립변수에 대해 왜도와 첨도를 검사
  • 분산분석
    • 분산분석에 대한 적합성 검정
      정규성, 등분산성, 독립성을 모두 검정
  • 최종요인 선정 후 다시 회귀분석 수행
    • 유의하지 않은 변수를 제거하면서 반복적으로 분석을 수행

pvalue

p-value의 기준

  • P-value < 0.01 : 귀무가설이 옳을 확률이 0.01 이하 → 틀렸다(깐깐한 기준) --> 귀무가설 기각, 대립가설 채택
  • P-value < 0.05 : 귀무가설이 옳을 확률이 0.05 이하 → 틀렸다(일반적인 기준) --> 귀무가설 기각, 대립가설 채택
  • 0.05 < P-value < 0.1 : 애매한 경우(샘플링을 다시한다)
  • 0.1 < P-value : 귀무가설이 옳을 확률이 0.1 이상 → 귀무가설 기각 불가, 틀리지 않았다(맞다와 다름)

0개의 댓글