통계 (4)

MSMoon·2025년 4월 10일
0

데이터 이론 학습

목록 보기
4/27
post-thumbnail

Chapter2 기초통계_심화과정

8) 범주형 자료분석

1. 적합도 검정

  • 범주형 자료(categorical data): 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류 시켜 도수로 주어진 데이터

  • 범주형 자료 분석
    -> 범주형 자료에 대한 통계적 추론 방법
    -> 범주형 자료 분석은 카이제곱 검정으로 추론

  • t-test와 카이제곱 검정의 차이
    -> t-test: 연속성 변수의 차이에 대한 검정
    -> 카이제곱 검정: 명목형 변수에 대한 검정

  • 적합도 검정(goodness of fit test): 관측된 값들이 추론하는 분포를 따르고 있는지 검정, 한개의 요인을 대상으로 검정

  • 독립성 검정(test of independence): 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지를 검정

  • 동질성 검정(test of homogeneity): 서로 다른 세개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정

2. 독립성 검정

  • 독립성 검정(test of independence): 관측된 값을 두개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지를 검정

  • 지지하는 정당과 사는 지역의 관련이 있는지 확인

3. 동질성 검정

  • 서로 다른 모집단에서 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정

  • 시간의 흐름에 따라 어떤 산업의 거래액이 증가하고 있는지?

  • 어떤 업종의 비중이 떨이지는지?

9) 상관분석 & 회귀분석

1. 상관분석

  • 상관관계(correlation coefficient): 두 변수간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도
    ρ=Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)\rho = \mathrm{Corr}(X, Y) = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X)} \sqrt{\mathrm{Var}(Y)}}

1) 상관계수 1ρ1-1 \leq \rho \leq 1
2) 상관계수가 1에 가까울 수록 양의 상관관계가 강함
3) 상관계수가 -1에 가까울 수록 음의 상관관계가 강함
4) 상관계수가 0에 가까울 수록 두 변수 간의 상관관계가 존재하지 않음
5) 상관계수가 0이라는 것은 두 변수 간에 선형 관계가 존재하지 않는다는 것

  • 표본상관관계(sample correlation coefficient)

    r=(xxˉ)(yyˉ)(xxˉ)2(yyˉ)2=SxySxxSyyr = \frac{\sum (x - \bar{x})(y - \bar{y})}{\sqrt{\sum (x - \bar{x})^2} \sqrt{\sum (y - \bar{y})^2}} = \frac{S_{xy}}{\sqrt{S_{xx}} \sqrt{S_{yy}}}
  • 가설 검정
    1) 가설 수립 H0:ρ=0vsH1:ρ0H_0: \rho = 0 \quad \text{vs} \quad H_1: \rho \ne 0
    2) 검정통계량: T=n2r1r2T = \sqrt{n - 2} \cdot \frac{r}{\sqrt{1 - r^2}}

2. 단순 회귀분석

  • 회귀 분석(regression analysis): 변수들간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법으로 독립변수를 통해 종속변술르 예측하는 방법
    -> 마케팅 비용에 따른 매출액 예측

  • 종속 변수(dependent variable): 다른 변수의 영향을 받는 변수로 반응변수라 표현하기도 하며,예측을 하고자 하는 변수
    -> 매출액, 수율, 불량율 등

  • 독립 변수(independent variable): 종속변수에 영향을 주는 변수로 설명변수라 표현하기도 하며, 예측 하는 값을 설명해주는 변수

  • 단순 회귀분석(simple regression analysis): 하나의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법

    Y=β0+β1X+εiY = \beta_0 + \beta_1 X + \varepsilon_i
  • 다중 회귀분석(multiple regression analysis): 2개 이상의 독립변수로 종속 변수를 예측하는 회귀 모형을 만드는 방법

    Y=β0+β1X1+β2X2++βkXk+εiY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon_i
  • 회귀모델링 분류

  • 단순 회귀분석 예시

-> 회귀선으로부터 각 관측치의 오차를 최소로 하는 선을 찾는 것이 핵심

  • 최소제곱법: 회귀 모형의 모수를 추정하는 방법 중 하나
    -> 최소제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)이라고 하며, 최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS(Ordinry Least Square)라고 함

회귀 모형의 오차에 대한 기본 가정
1) 정규성 가정: 오차항은 평균이 0인 정규 분포를 따름
2) 등분산성 가정: 오차항의 분산은 모든 관측값 xix_i에 상관없이 일정함
3) 독립성 가정: 모든 오차항은 서로 독립임

y=β0+β1xi+εi,εiiid N(0,σ2)y = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad \varepsilon_i \sim \text{iid } \N(0, \sigma^2)

y=β0+β1xi+εiy = \beta_0 + \beta_1 x_i + \varepsilon_i

\Rightarrow 오차항의 제곱합은 SS=εi2=(yiβ0β1xi)2SS = \sum \varepsilon_i^2 = \sum (y_i - \beta_0 - \beta_1 x_i)^2

aβ0=2(yiβ0β1xi)=0yinβ0β1xi=0β0=yˉβ1xˉ\Rightarrow \frac{\partial a}{\partial \beta_0} = -2 \sum (y_i - \beta_0 - \beta_1 x_i) = 0 \Rightarrow \sum y_i - n\beta_0 - \beta_1 \sum x_i = 0 \Rightarrow \beta_0 = \bar{y} - \beta_1 \bar{x}

aβ1=2xi(yiβ0β1xi)=0xiyiβ0xiβ1xi2=0β1=(xiyinxˉyˉ)xi2nxˉ2=(xixˉ)(yiyˉ)(xixˉ)2=SxySxx\Rightarrow \frac{\partial a}{\partial \beta_1} = -2 \sum x_i (y_i - \beta_0 - \beta_1 x_i) = 0 \Rightarrow \sum x_i y_i - \beta_0 \sum x_i - \beta_1 \sum x_i^2 = 0 \Rightarrow \beta_1 = \frac{\sum (x_i y_i - n \bar{x} \bar{y})}{\sum x_i^2 - n \bar{x}^2} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}

  • 분산분석표: 추정된 회귀식에 대한 유의성 여부는 분산분석을 통해서 회귀식의 유의성을 판단 할 수 있음

    ykyˉ=(yky^k)+(y^kyˉ)y_k - \bar{y} = (y_k - \hat{y}_k) + (\hat{y}_k - \bar{y})

  • 제곱합을 각각의 자유도로 나눈 값을 평균제곱(mean square)라고 함

  • ykyˉ=(yky^k)+(y^kyˉ)y_k - \bar{y} = (y_k - \hat{y}_k) + (\hat{y}_k - \bar{y})

  • 평균제곱오차(mean square error) = SSE/(n2)=σ2\mathrm{SSE}/(n - 2) = \sigma^2

  • 회귀평균제곱(regression mean square) = SSR/1\mathrm{SSR}/1


  • 회귀분석의 β0\beta_0, β1\beta_1의 추론과 가설 검정

점추정량:

β0=yˉβ1xˉ,β1=(xixˉ)(yiyˉ)(xixˉ)2,σ2=(1n2)εi2\beta_0 = \bar{y} - \beta_1 \bar{x}, \quad \beta_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}, \quad \sigma^2 = \left(\frac{1}{n - 2}\right)\sum \varepsilon_i^2

β0,β1\beta_0, \beta_1의 평균, 분산:
E(β0)=β0,E(β1)=β1,Var(β1)=σ2Sxx\mathbb{E}(\beta_0) = \beta_0, \quad \mathbb{E}(\beta_1) = \beta_1, \quad \mathrm{Var}(\beta_1) = \frac{\sigma^2}{S_{xx}}

β1N(β1,σ2/Sxx)\beta_1 \sim \mathcal{N}(\beta_1, \sigma^2 / S_{xx}) 따라서
β1β1MSE/Sxxt(n2)\frac{\beta_1 - \beta_1}{\sqrt{MSE / S_{xx}}} \sim t(n - 2)
(여기서 MSE=σ2MSE = \sigma^2 를 모르면 대체하여 사용)

β1\beta_1의 신뢰구간:
β1tα2(n2)MSE/Sxxβ1β1+tα2(n2)MSE/Sxx\beta_1 - t_{\frac{\alpha}{2}}(n - 2)\sqrt{MSE / S_{xx}} \leq \beta_1 \leq \beta_1 + t_{\frac{\alpha}{2}}(n - 2)\sqrt{MSE / S_{xx}}

가설검정:
1) 가설 수립 H0:β1=0vsH1:β10H_0 : \beta_1 = 0 \quad vs \quad H_1 : \beta_1 \ne 0
2) 검정통계량: t=β1MSE/Sxxt = \frac{\beta_1}{\sqrt{MSE / S_{xx}}}
3) 기각기준: ttα2(n2)|t| \geq t_{\frac{\alpha}{2}}(n - 2)이면 H0H_0 기각(reject)할 수 있음

  • 결정 계수(Coefficient of determination: R2R^2): 추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지를 수치로 제공하는 값
R2=SSRSST=1SSESSTR^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}

-> 0과 1사이에 있는 값으로 1에 가까울 수록 추정된 모형이 설명력이 높음
-> 0이라는 건 추정된 모형이 설명력이 전혀 없다고 할 수 있음

  • 수정 결정 계수(Adjust R2R^2)
    -> R2R^2은 유의하지 않은 변수가 추가되어도 항상 증가됨
    -> Adjust R2R^2은 특정 계수를 곱해 줌으로서 R2R^2가 항상 증가하지 않도록 함
    -> 보통 모형 간의 성능을 비교할 때 사용함
    Radj2=1[n1n(p+1)]SSESSTR^2_{\text{adj}} = 1 - \left[ \frac{n - 1}{n - (p + 1)} \right] \frac{SSE}{SST}

잔차 분석

  • a) 선형성을 벗어나는 경우
    -> 종속변수와 독립변수가 선형 관계가 아님

  • b) 등분산성이 벗어난 경우
    -> 일반적인 회귀모형 사용 불가능
    -> 등분산성 가정 위배

  • c) 독립성이 벗어나는 경우
    -> 시계열 데이터 또는 관측 순서에 영향을 받는 데이터에서는 독립성을 담보할 수 없음 (Durbin-Watson test 실행)

  • d) 정규성을 벗어나는 경우
    -> Normal Q-Q plot으로도 확인
    -> 잔차가 -2 ~ +2 사이에 분포해야 함
    -> 벗어나는 자료가 많으면 독립성 가정 위배

3. 다중 회귀분석

  • 다중 회귀분석(multiple regression analysis): 2개 이상의 독립변수로 종속 변수를 예측하는 회귀 모형을 만드는 방법
  • 로지스틱 회귀분석(Logisitic regression analysis): 반응 변수가 범주형인 경우 사용하는 모형
  • 다항 회귀분석(polynomial regression): 독립 변수가 k개이고 반응 변수와 독립변수가 1차 함수 이상인 회귀 분석

변수선택법

  • 전진선택법(forward selection): 독립변수를 1개부터 시작하여 가장 유의한 변수들부터 하나씩 추가하면서 모형의 유의성을 판단하는 방법

  • 후진제거법(backward selection): 모든 독립변수를 넣고 모형을 생성한 후, 하나씩 제거하면서 판단하는 방법

  • 단계 선택법(stepwise selection): 전진선택법, 후진제거법 두가지 방법을 모두 사용하여 변수를 넣고 빼면서 판단하는 방법

  • 더미 변수(dummy variable): 값이 0 또는 1로 이루어진 변수
    -> 범주형 변수를 사용하기 위해서 더미변수가 필요

다중공선성(Multicollinearity)
-> 상관관계가 높은 독립변수들이 동시에 사용될 때 문제가 발생
-> 결정계수 값은 높아 회귀식의 설명력은 높지만 독립변수의 P-value가 커서 개별 인자들이 유의하지 않은 경우 의심할 수 있음
-> 일반적으로 분상팽창요인(VIF)이 10 이상이면 다중 공선성이 존재함
-> VIF=11Rk2VIF = \frac{1}{1 - R_k^2}, k번째 독립변수를 종속변수로 나머지를 독립변수로 하는 회귀모형의 결정 계수

  • 해결방안
    1) 다중공선성이 존재하지만 유의한 변수인 경우 목적에 따라 사용할 수 있음
    2) 변수 제거
    3) 주성분분석으로 변수를 재조합

이 글은 제로베이스 강의 자료 일부를 발췌하여 작성되었습니다

0개의 댓글