1. 분석기법
(1)회귀 분석
- 변수들 사이의 인과관계를 밝히고 모형을 Fit하여 관심있는 변수를 예측하거나 추론하기 위한 분석 방법
영향을 주는 변수(x) : 독립변수,설명변수,예측변수
영향을 받는 변수(y) : 종속변수,반응변수,결과변수
✽데이터가 선형성, 독립성, 등분산성, 비상관성, 정상성 을 만족하여야한다.
- 선형성 : 독립변수의 변화에 따라 종속변수도 일정 크기로 변화(선형적 관계)
- 독립성 : 잔차와 독립변수의 값이 관련돼 있지 않음
- 등분산성 : 독립변수의 모든 값에 대해 오차들의 분산이 일정
- 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함
- 정상성 : 잔차항이 정규 분포를 이뤄야 함
(※ 잔차 : 회귀선과 표본 관측값의 차이)
회귀 모형 검증
- 모형이 통계적으로 유의미한가?
- F-통계량 확인
- 유의 수준 0.05 미만, p-value가 0.05보다 작으면 추정된 회귀식이 통계적으로 유의미함
- 회귀계수들이 유의미한가?
- 해당 계수의 T-통계량과 p-value, 신뢰구간 확인
- 모형이 얼마나 설명력을 갖는가?
- 결정계수 확인, 높은 값일 수록 설명력이 높음
- 모형이 데이터를 잘 적합하고 있는가?
- 데이터가 가정을 만족시키는가?
- 위에서 언급한 여러 가정들을 만족시키는지 확인
1. 단순선형 회귀 분석
- 독립변수와 종속변수가 각각 한 개, 오차항이 있는 선형 관계
- 최소제곱법을 활용하여 회귀계수 추정
최소제곱법
▶︎ 오차(측정값과 실제값의 차) 제곱의 합이 최소가 되는 방식으로 결정
(※ 오차 : 회귀선과 실제값의 차이)
- 회귀계수가 0이면 인과관계가 없음
- 결정계수(R2) 는 전체 데이터를 회귀 모형이 얼마나 잘 설명하고 있는지를 보여줌
회귀선의 정확도를 평가/ 전체 제곱합에서 회귀 제곱합의 비율
- 전체 제곱합(SST,Total Sum of Squares) = SSR+SSE
- 회귀 제곱합(SSR, Regression Sum of Squares)
- 오차 제곱합(SSE, Error Sum of Squares)
- 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표
2.다중선형 회귀 분석(다변량 회귀)
- 통계적 유의성은 F-통계량으로 확인
n개의 표본과 k개의 변수가 있을 때 F-통계량
- 회귀제곱평균(MSR)=SSR/k
- 잔차제곱평균(MSE)=SSE/(n−k−1)
- 총제곱평균(MST)=SST/(n−1)
F-통계량 = MSR/MSE
(2)로지스틱 회귀 분석
(3)의사결정 나무
(4)인공신경망(ANN)
(5)SVM
(6)연관성 분석
(7)군집 분석