(1) 회귀분석
- 하나 이상의 독립변수(x1, x2, ...)들이 종속 변수(y)에 얼마나 영향을 미치는지 추정하는 통계기법
- 독립변수 : 원인변수 (설명변수), 종속변수 : 결과변수 (반응변수)
- 독립 변수 하나 : 단순선형회귀분석, 2개 이상 : 다중선형회귀분석
- 인과 관계에 의한 분석
(2) 회귀분석의 가정 (선형성, 독립성, 등분산성, 정규성)
- 선형성 : 독립변수와 종속변수가 선형적
- 독립성 : 단순 회귀분석에서 잔차와 독립변수의 값이 서로 독립이어야 함
- 독립변수가 여러 개인 다중회귀분석의 경우에는 독립변수들 간에 상관성이 없이 독립이어야 함.
- 만약 상관성이 독립변수간에 상관성이 존재하는 경우 (다중공선성) 이를 제거하고 회귀 분석 수행해야함.
- 등분산성 : 분산이 같다. (잔차들이 고르게 분포)
- 잔차의 중심에서 분산이 같아야 한다.
- 등분산성 만족 못하는 경우 회귀선은 덩어리 모양
- 정규성
- 잔차항이 정규분포 형태를 띠는 것 : 정규성을 만족
- 오차와 잔차
- 오차 : 예측값과 실제 값의 차이
- 잔차 : 모집단의 일부인 표본집단으로 회귀식 추정할 때, 표본집단에 의해 추정된 회귀식의 예측 값과 실제 값이 차이
- 잔차도 : 예측 값과 실제 값의 차이를 나타낸 산점도
- 예측값과 실제값의 차이가 없는 경우 : 잔차 0
(3) 단순선형회귀분석
- 독립변수와 종속변수가 1개씩일 때 둘 사이의 인과관계를 분석하는 것
- 두 변수의 관계가 선형적
- 최소제곱법을 활용하여 실제 데이터와 오차가 가장 작아지는 직선의 방정식을 찾음
- 최소 제곱법 : 실제 관측치와 추세선에 의해 예측된 점 사이의 거리, 즉 오차를 제곱해 더한 값을 최소화하는 것
- SSE (오차제곱합) : 모형이 설명하지 못하는 부분
- SSR (회귀제곱합) : 모형이 설명하는 부분
- SST (총제곱합) : 전체 설명이 필요
(4) 회귀분석 모형의 적합성
- 독립변수 1개 : 단순 회귀분석
독립변수 2개 이상 : 다중회귀 분석
(5) 회귀모형의 통계적 유의성 검증
* F-검정 -> 분산의 차이를 확인할 때 사용
* 분산의 차이가 크다 -> 회귀모형에서 회귀 계수가 크다
- F-통계량 (F값이 크다) 회귀계수가 크고 가파르다 -> 변수간에 유의미한 인과관계가 존재, 회귀 모형 통계적 유의성 확인 방법
- F값이 크면 F값이 0에서 얼마나 가까운지 확률적으로 측정한 P값이 상대적으로 작아짐
* T-검정 : 회귀계수의 유의성을 검정
- T통계량이 크다는 것은 분모가 작다는 의미 -> 분모에 해당하는 표준오차가 작다
- T-통계량이 크면 회귀계수도 커지고, 유의미한 인과관계가 검증 / P값 작아짐
- anova 사용
(6) 모형의 설명력
- 회귀 분석결과를 분산분석하고 도출된 설명계수 R^2로 모형의 설명력 판단
- R^2이 1에 가깝다면 회귀 모형의 예측력이 높다는 것
(7) F값과 P값의 관계
- Fvalue가 크다 = 집단 간 분산 차이 크다, 회귀 추세선이 가파르다, 기울기가 가파르다, 회귀계수가 양 혹은 음으로 크다, P값이 낮아진다.
(8) 다중선형회귀분석이란?
- 독립변수가 2개 이상이고 종속변수가 하나일 떼 사용가능한 회귀 분석
- 독립변수와 종속변수의 관계가 선형으로 표시
(9) 다중공선성
-
진단
-
다중공선성 : 독립 변수 간의 강한 상관 관계가 있는 것.
-
R^2이 커서 회귀식의 설명력은 높지만 각 독립변수의 P-value값이 커서 개별 인자가 유의하지 않은 경우 다중공선성 의심가능
-
독립변수 간의 상관계수를 구하자
-
VIE (분산 팽창 요인)를 구해 10을 넘는다면 다중공선성이 있다고 판단 가능
- VIE = 1 / (1-R^2) > 10 => 다중공선성 ㅇ
-
해결법
- 주성분분석(PCA)를 통해 변수의 차원을 축소 -> 원래 데이터가 가진 내제적 속성을 보존하면서 데이터를 축소하는 방법 사용
- LDA 통해 차원 축소
(10) 최적 회귀방정식
- 1개의 반응변수 y를 설명하기 위한 k개의 독립변수 후보들이 있을 때 반응변수 y를 가장 잘 설명할 수 있는 회귀식을 찾는 것
- 종속변수에 유의미한 영향을 미칠 것으로 생각되는 독립변수를 선택하는 과정
(11) 변수 수행에 사용되는 성능지표
- 벌점화 방식의 AIC와 BIC
- 회귀 모형은 변수의 수가 증가할수록 편향은 작아지고 분산은 커짐
- 변수가 많아 복잡해진 모형에 벌점을 줌
- AIC : 아카이케 정보 기준
- BIC : 베이즈 정보 기준
- 멜로우
(12) 단계적 변수 선택법
- 전진 선택법 : 모든 독립변수 가운데 기준 통계치에 가장 많은 영향을 줄것으로 판단되는 변수부터 하나씩 추가하는 것.
- 후진 선택법 : 독립변수를 모두 포함하여 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법
- 단계별 방법 : 전진선택법과 후진 제거법 보완
(13) 정규화 선형회귀
- (1) 라쏘, L1규제
- 절댓값의 합을 최소화하는 것 -> 회귀계수 절댓값이 클수록 강한 penalty 부여
- 람다 값으로 penalty 정도 조정
- 자동으로 변수를 선택하는 효과 있음
- (2) 릿지, L2 규제
- (3) 엘라스틱넷 - 라쏘와 릿지를 결합
(14) 일반화 선형회귀
- 로지스틱 회귀 -> 종속 변수가 범주형 변수 (0또는 1)인 경우로 의학 연구에 많이 사용
- 포아송 회귀 -> 종속 변수가 특정 시간 동안 발생한 사건에 대한 도수자료인 경우이면서, 종속변수가 정규분포를 따르지 않거나 등분산성을 만족하지 못하는 경우에 사용
(15) 더빈 왓슨 검정
- 회귀 분석에 있어 이러한 자기상관성(오차항이 독립성을 만족하는지)이 존재하는지 검정하는 방법
- 2에 가까울수록 자기상관
- 0에 가깝다 -> 양의 상관관계
- 4에 가깝다-> 음의 상관관계