회귀분석에서는 범주형 데이터는 제외(object 제외)
선형회귀분석 : 어떤 결론을 내는데 가장 크게 영향을 주는 변수를 찾아내는 과정
회귀분석
- 모듈 myOls 를 통해 R-squared, pvalue가 0.05를 넘지 않을 것, Dubin-Watson 확인
- 잔차, zscore를 분석.
- 잔차의 등분산성을 분석.
- Q-Q Plot을 사용해 잔차의 정규성 확인 - 이를 통해 분석의 정확성을 그래프로 확인 후 판단.
잔차를 확인하기 위한 Kolmogorov Smirnov 검정 진행.
등분산성 확인을 위한 브로이슈 패건 검정 진행.
이후 분석 신뢰성을 판단
PCA분석은 무조건 스케일링 진행.
- R-squared 값으로 설명력 확인
- Durbuin-Watson 값으로 독립성 확인(1.5 ~ 2.5 사이)
- pvalue 값으로 귀무가설, 대립가설 유의미성 확인
모든 독립변수에 대해 왜도와 첨도를 검사p-value의 기준
P-value < 0.01: 귀무가설이 옳을 확률이0.01이하 → 틀렸다(깐깐한 기준) -->귀무가설 기각, 대립가설 채택P-value < 0.05: 귀무가설이 옳을 확률이0.05이하 → 틀렸다(일반적인 기준) -->귀무가설 기각, 대립가설 채택0.05 < P-value < 0.1: 애매한 경우(샘플링을 다시한다)0.1 < P-value: 귀무가설이 옳을 확률이 0.1 이상 →귀무가설 기각 불가, 틀리지 않았다(맞다와 다름)