3일차 이야기 시작.
패스트캠퍼스 [나의 커리어 치트키 데이터 분석 유치원] 파트3, 챕터 5 선형회귀분석
회귀
독립변수 x(영향을 미칠 변수)로 종속변수 y(영향을 받는 변수)를 예측하는 것
회귀계수 = 기울기와 절편 (a(기울기)x + b(절편))
다중선형회귀분석
-- 여러 독립변수가 존재 x1, x2, x3, ..., xn
-- 하나의 결과를 여러 원인으로 설명하기 위한 분석 방법
<결정계수>
-- 독립변수(x)가 종속변수(y)를 얼마만큼 설명해주는지 가리키는 지표
-- 독립변수가 종속변수의 50%정도를 설명하는 0.5 (일반적으로 20% = 0.2)
-- =
선형회귀의 기본 5가지 검정
@ 오차 : 모집단에서 회귀식을 얻어 회귀식을 통해 얻은 예측값과 관측값의 차이>
@ 잔차 : 표본집단에서 회귀식을 얻어 회귀식을 통해 얻은 예측값과 관측값의 차이>
-- 선형성 : 선형적
-- 잔차 정규성 : 잔차는 정규분포를 이루어야 한다.
-- 독립성 : 다중 선형회귀에만 해당하는 가정, 독립변수(x)들은 모두 독립
-- 다중 공선성 : 다중 회귀분석을 수행할 경우, 독립변수 간에 강한 상관관계 아니어야 함. (=======> +-0.6이하가 되어야함. )
-- 등분산성 : 분산이 특정 패턴이 없이 일정해야 한다.
SST (SStotal, SSTreatment)
SS_error = 집단내의 분산(개수가 많음 = k개)
SS_treatment = 집단간의 분산(개수가 적음)
MS_treatment = SS_treatment / (k-1) ... -1인 이유는 전체 평균에서 빼기에 자유도 1임
MS_error = SS_error / (n-k) ... 각 집단의 수 별 빼기에 k개 만큼을 뺀 것임.
F분포 = MStreatment / MSerror
F분포는 카이제곱 분산의 비율을 따름, 또한 여기서 모두 정규분포를 따른다는 가정이 요구.
어떠한 패턴이 없다는 것을 확인하는 가정임. 우리는 패턴을 찾는 것이 목표인데, 패턴을 찾고서 남은 패턴이 없다는 것. 그렇기에 원본 데이터가 아닌 잔차에 대한 가정으로 이는 원본데이터가 정규분포를 따른다는 것은 아님을 의미한다.
정규성(왜도와 이상치에 문제가 발생, 잔차의 분포가 정규분포), kolmogorov(대용량), shapiro(3000개 이하 데이터일때), 수십만개(q-qplot, 1000개씩 샘플링)
독립성(각 관측치의 순서에는 패턴이 없다. 보통 시간 순서에 따라 데이터가 배치된 경우 문제가 발생(시계열)), DW test
등분산성(각 집단의 분산은 동일하다, 하지만 왜도 문제가 발생한다.), Bartlett's test
왜도와 이상치는 log변환이나 이상치 제거가 90%으로 이슈해결한다.
< welch-T-test >
< log 변환의 효과>
카이제곱 검정
< 카이제곱 검정과 분할표 >
12.375 = (p1=33) * (q1=30) / 80
독립성 검정에는 양극단 문제가 발생하므로, 이는 각cell은 최소 5이상을 권장
데이터가 적으면 fisher의 exact test : 초기하 분포 가정한다.
이항분포에서도 n p > 5, n q > 5이상일때, 정규 근사할 수 있도록 권장한다.