SPSS에서 다중회귀분석 해보기
다중회귀분석에서는 분석 전에 확인할 사항이 많다.
다음의 순서에 따라 체크하여 기준에 부합하지 않는 변수와 데이터를 찾아 제거한다.
최종적으로 종속변수에 영향을 미치는독립변수와 데이터를 찾아 회귀분석을 실시할 수 있다.
▼
산점도 그리기
▼
회귀 모형 추정
▼
다중공선성 진단
▼
변수 선택
▼
영향점 진단
▼
잔차 분석
▼
회귀모형 분석
(Multiple Regression Analysis)
※ 출처:
시대고시 사회조사분석사 2급 실기 연습용 데이터
매출액(A3) 변수를 종속변수로 하고
인건비(A4), 임차료(A5), 기타경비(A7)을 독립변수로 하여
다중회귀분석을 수행해 보자.
1) 귀무가설: 인건비, 임차료, 기타경비는 매출액에 영향을 미치지 않는다.
2) 대립가설: 인건비, 임차료, 기타경비는 매출액에 영향을 미친다.
그래프-산점도/점도표 순으로 클릭
행렬산점도 클릭하고 정의 클릭
왼쪽 변수 목록에서 독립변수, 종속변수 전부 선택하고
파란 화살표 이용해서 행렬변수로 이동A3, A4,A5, A7 변수 모두 행렬변수로 이동하고 확인 클릭
행렬산점도 그래프를 보면 대부분의 변수들 사이 양의 상관관계가 나타난다.
상관분석을 수행한 결과표와 같이 보면 모든 변수 사이 유의확률이 0.000으로
상관관계가 유의함을 알 수 있다.상관관계가 유의하게 나타난 변수만 선택하고 나머지 변수는 회귀분석에서 제거한다.
여기서는 인건비, 임차료, 기타경비 모든 변수가 상관관계가 유의하게 나왔으므로
제거할 변수는 없다고 판단된다.
분석-회귀분석-선형 순으로 클릭
왼쪽 변수 목록에서 종속변수와 독립변수 각각 이동하고
확인 클릭
여기에서 일단 유의확률만 살펴본다.
여기서 유의수준 0.05보다 작게 나온 변수만 선택한다.인건비, 임차료, 기타경비 모두 유의수준 0.05보다 작게 나와서
3가지 변수 모두 종속변수인 매출액에 영향을 미친다고 본다.
분석-회귀분석-선형 순으로 클릭해서 나타나는 대화상자에서
오른쪽 통계량 클릭
공선성 진단에 체크하고 계속 클릭
저장 클릭
공분산 비율에 체크하고 계속 클릭하고
나오는 대화상자에서 확인 클릭
여기서는 VIF 값을 확인한다.
이 값이 10 이상이면 다중공선성 문제가 발생한다.
따라서 VIF 값이 10보다 작게 나온 변수만 선택한다.인건비, 임차료, 기타경비 모두 VIF 값이 10보다 작기 때문에
다중공선성에 문제가 없다.
여기에서는 상태지수 값을 확인한다.
상태지수도 똑같이 10 이상이면 다중공선성에 문제가 발생한다.
마찬가지로 상태지수 값이 10보다 작은 변수만 선택한다.3가지 변수 모두 상태지수 값이 10보다 작기 때문에
다중공선성에 문제가 없다.
위 과정을 거쳐서 최종적으로 독립변수를 선택한다.
여기서는 처음 예측한 대로 인건비, 임차료, 기타경비
3가지 변수 모두가 제거 없이 독립변수로 선택될 수 있다.
분석-회귀분석-선형 순으로 들어가면 나오는 대화상자에서
저장 클릭
Cook의 거리, DfBeta, DfFit 3 가지 체크하고
계속 클릭
그리고 데이터 보기 창으로 가면 여러 변수가 추가되어 있다.
COO_1 변수의 데이터 값을 살펴본다.
여기 값이 1 이상이면 이상치라고 판단한다.내림차순으로 데이터를 정렬해서 살펴보니 2개 데이터가 1 이상으로 나와
이상치로 판단되었다.그럼 이제 이 데이터 두 개를 제거하고 다시 회귀분석을 실행해
이전과 회귀식의 기울기를 비교해 보자.
위쪽이 이상치 제거 전 아래쪽이 이상치 제거 후이다.
상수의 B 값이 회귀식의 기울기 값이다.-135906.812에서 -28769.083으로 기울기가 변했다.
따라서 해당 이상치 2개는 영향점으로 판단된다.
기울기에 변화를 주는 이상치는 영향점으로 분석에서 제거하면 안 된다.
분석-회귀분석-선형 순으로 들어가서 나오는 대화상자에서
도표 클릭
Y에 ZRESID 이동, X에 ZPRED 이동
계속 클릭
산점도 도표를 보면 위쪽에 8 이상의 이상치가 하나 있는 것이 보인다.
이제 케이스별진단을 통해 어떤 데이터인지 찾아서 제거해야 한다.
분석-회귀분석-선형 순으로 클릭한 대화상자에서
통계량 클릭
케이스별 진단 체크하고 아까 산점도 그래프에서
8 이상에서 이상치가 하나 있었으니까 표준편차에 8 기입하고
계속 클릭다음 대화상자에서 확인 클릭하면
케이스별 진단 결과표에 보면 8번 케이스가 이상치였다고 나온다.이제 데이터 창에 가서 8번 케이스를 찾아 제거하고
다시 산점도 분석을 한다.그런데 해당 데이터를 보니 아까 이상치에서 영향점으로 판단된 데이터였다.
그래서 여기서도 제거하지 않기로 한다.산점도 그래프에서 이상치가 안 나올 때까지
반복해서 이상치 케이스를 제거해 나간다.산점도 그래프에서 데이터가 퍼져 있는 모양을 통해
등분산성에 문제가 없음을 확인한다.그러면 이제 최종 확정된 변수와 데이터만 가지고
최종적으로 회귀분석을 진행하고 결과를 해석할 수 있게 되었다.
최종 선택된 변수와 데이터를 가지고
분석-회귀분석-선형 순으로 클릭해서 실행하면 된다.여기서는 수정된 R 제곱값을 확인한다.
이 값은 설명력을 나타낸다.수정된 R 제곱 값이 0.648로 64.8% 설명력을 갖는다.
검정통계랑 t값이 -3.195이고
유의확률 값이 0.002로 유의수준 0.05보다 작기 때문에 귀무가설을 기각한다.따라서 회귀모형은 유의하다.
각 변수의 유의확률 값도 유의수준보다 작기 때문에
인건비, 임차료, 기타경비는 매출액에 영향을 미친다.추정된 회귀식은
Y= -135906.812+2.449A4-0.805A5+1.857A7또한 종속변수에 영향을 미치는 독립변수들의 상대적 중요도는
표준화 계수 베타의 절대값으로 설명된다.순서대로 인건비>기타경비>임차료 순으로
매출액을 설명하는 중요 변수로 나타났다.