수리통계- 6.회귀분석

WooSeongkyun·2023년 3월 27일

수리통계학

목록 보기

6/6

상관분석

correlation analysis

의미
- 두 변수 사이의 선형관계가 유의미 하게 존재하는지, 존재한다면 어느정도의 선형관계인지 '상관계수'라는 정량화된 값을 통하여 분석하는 방법
상관계수 correlation coefficient
- 두 변수 $X$ , $Y$ 사이의 선형관계를 측정하는 상관계수는 다음과 같이 정의된다
- $\rho=\displaystyle\frac{Cov(X,Y)}{SD(X)SD(Y)}$
성질
1. $\rho(X,Y)=\rho(Y,X)$
2. $\rho(X,Y)=\rho(aX+b,cY+d)$
3. $|\rho(X,Y)|\le 1$
4. $|\rho(X,Y)|=1$ 의 필요충분조건은 $Y=aX+b$ 이다
5. 확률 변수 $X$ 와 $Y$ 가 서로 독립이면 $\rho(X,Y)=0$ 이다
증명
2. $\rho(aX+b,cY+d)=\displaystyle\frac{Cov(aX+b,cY+d)}{SD(aX+b)SD(cY+d)}$
- $\displaystyle\frac{acCov(X,Y)}{aSD(X)\cdot cSD(Y)}$
- $=\displaystyle\frac{Cov(X,Y)}{SD(X)SD(Y)}=\rho(X,Y)$
3. - $-1 \le \rho \le 1$
- 증명
- $X ^{*}=(X-\mu _{X})/\sigma _{X}$ , $Y ^{*}=(Y-\mu _{Y})/\sigma _{Y}$ 라고 하자
- $VAR(X ^{*} \pm Y ^{*})=\mathbb{E}[((X ^{*} \pm Y ^{*})-\mathbb{E}(X ^{*} \pm Y)) ^{2}]$
- $=\mathbb{E}[(X ^{*}-\mathbb{E}(\boldsymbol{X}^{*})\pm(Y ^{*} - \mathbb{E}[Y] ^{*}) ^{2}) ]=Var(X ^{*})+Var(Y ^{*})\pm2 \mathbb{E}[(X ^{*}-\mathbb{E}(X ^{*})(Y ^{*}-\mathbb{E}(Y ^{*}))]$
- $=Var(X ^{*})+Var(Y ^{*}) 2\pm Cov(X ^{*},Y ^{*}) \ge 0$
- $\mathbb{E}[X ^{*}]=\mathbb{E}(X-\mu _{X})/\sigma _{X}=0$ 이므로 $Var(X ^{*})=\mathbb{E}[X/\sigma _{X}]=\displaystyle\frac{1}{\sigma _{X} ^{2}}\cdot \sigma _{X} ^{2}=1$ . $Var(Y ^{*})=1$ 도 동일하게 증명된다.
- $Cov(X ^{*},Y ^{*})=\mathbb{E}[(X ^{*})(Y ^{*})]=\mathbb{E}[(X-\mu _{X})(Y- \mu _{Y})]/(\sigma _{X}\sigma _{Y})=\rho$
- $2\pm2 \rho \ge 0$
- $1 \pm \rho \ge 0$
- $1+\rho>0$ 으로 부터 $-1<\rho$ , $1-\rho>0$ 으로 부터 $\rho<1$ 이란 사실을 얻어
- $-1 \le \rho \le 1$
4. $\rho(X,Y)=1$ 이면 $Var(X ^{*} -Y ^{*})=0$ 이다.
- 분산이 0이라면, $\mathbb{E}[(T-\mathbb{E}(T)) ^{2}]$ 가 0이라는 것인데, 제곱항이 항상 0이상의 수이므로, 평균하였을 때 0이 나오려면 $(T - \mathbb{E}[T]) ^{2}=0$ 이라는 결과가 나온다. 따라서 $T=\mathbb{E}[T]$ , $T$ 가 상수임을 알 수 있다.
- $X ^{*}-Y ^{*}$ 는 상수이다. 이 경우 $\displaystyle\frac{X-\mu _{X}}{\sigma _{X}}-\displaystyle\frac{Y-\mu _{Y}}{\sigma _{Y}}=C$
- $\displaystyle\frac{Y-\mu _{Y}}{\sigma _{Y}}=\displaystyle\frac{X-\mu _{X}}{\sigma _{X}}-C$
- $Y=\sigma _{Y}(\displaystyle\frac{X-\mu _{X}}{\sigma _{X}}-C)+\mu _{Y}$
- $\rho(X,Y)=-1$ 인경우 $Var(X ^{*}+Y ^{*})=0$ 이 되어 이경우 $X$ 앞에 붙은 계수 부호가 - 가 된다
표본 상관계수 sample correlation coefficient
- 조건
- 샘플 크기가 $n$ 인 이변량 랜덤표본 $(X _{1},Y _{1}),(X _{2},Y _{2}),\cdots,(X _{n},Y _{n})$ 이 있다고 하자
- 정의
- $R=\displaystyle\frac{\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{(x_{i}-\overline{x})(y_i-\overline{y})}}{n-1}}{\sqrt{\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{(x_i-\overline{x})^2}}{n-1}}\sqrt{\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{(y_{i}-\overline{y})^2}}{n-1}}}=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{(x_{i}-\overline{x})(y_{i}-\overline{y})}}{\sqrt{\displaystyle\sum_{i=1}^{n}{(x_i-\overline{x})^2}}\sqrt{\displaystyle\sum_{i=1}^{n}({y_{i}-\overline{y})^2}}}$
정리
- 조건
- 샘플 크기가 $n$ 인 이변량 랜덤표본 $(X _{1},Y _{1}),(X _{2},Y _{2}),\cdots,(X _{n},Y _{n})$ 이 있다고 하자
- 모수벡터가 $(\mu _{X},\mu _{Y},\sigma _{X} ^{2},\sigma _{Y} ^{2},\rho)$ 라고 하자
- 이때 상관계수 $\rho(X,Y)=0$ 이라고 하자
- 정리
- 표본상관계수 $R$ 의 함수인 통계량 $T=\displaystyle\frac{R \sqrt{n-2}}{\sqrt{(1-R ^{2})}}$ 는 자유도가 $t-2$ 인 $t$ 분포를 따른다
```
	 - 의미
		-  귀무가설 $H:\rho =0$ , 대립가설 $H _{1}:\rho \neq 0$ 로 하여 $|T|\ge t _{\alpha/2}(n-2)$ 일 때 귀무가설을 기각하는 방식으로 활용한다
		- 그러나 반대로 $\rho \neq 0$ 가 아닌 경우 $R$의 분포가 복잡하기 때문에, Fisher가 사용한 다른 방식을 활용해야 한다.
```

1변수 선형회귀모형

simple linear regression

의미
- 두 확률변수 $X$ 와 $Y$ 사이의 관계를 알고자 할 때 선형관계 정도를 넘어, 두 변수사이의 함수관계를 파악하고자 하자
- 이 경우 두 변수 사이 선형 함수의 관계가 있는지, 만약 존재한다면 그 함수를 어떻게 찾을 수 있는지 방법론을 살펴보고자 한다
용어
- 독립변수 indepdent variable / 설명 변수 explanatory variable / 예측변수 predictor X
- 독립변수의 수많은 이름
- 종속변수 dependent variable / 반응 변수 response variable
- 종속변수의 수많은 이름
- 회귀 함수 regression function
- $\mathbb{E}[Y|x]$
- $X$ 에 대한 $Y$ 의 회귀함수
정리
- 조건
- 두 확률 변수 $X$ , $Y$ 가 있고, 회귀함수식 $\mathbb{E}[Y|x]=\beta _{0}+\beta _{1}x$ 가 존재한다고 하자
- 정리
- $\mathbb{E}[Y|X=x]=\mu _{Y}+\rho \displaystyle\frac{\sigma _{Y}}{\sigma _{X}}(X-\mu _{X})$
- 증명
- $\displaystyle\int_{-\infty }^{\infty }{\mathbb{E}[Y|x]f _{X}(x)dx}=\displaystyle\int_{-\infty }^{\infty }{[\displaystyle\int_{-\infty }^{\infty }y \displaystyle\frac{f _{X,Y}(x,y)}{f _{X}(x)}dy]{f _{X}(x)dx}}=\displaystyle\int_{-\infty }^{\infty }{y[\displaystyle\int_{-\infty }^{\infty }{f _{X,Y}(x,y)}dx]dy}$
- $=\displaystyle\int_{-\infty }^{\infty }{y f _{Y}(y)dy}=\mu _{Y}$
- 또 다시 위식의 $\mathbb{E}[Y|x]$ 를 $\beta _{0}+\beta _{1}x$ 로 표기하여 다시 적분하면
- $\displaystyle\int_{-\infty }^{\infty }{\mathbb{E}[Y|x]f _{X}(x)=\displaystyle\int_{-\infty }^{\infty }{(\beta _{0}+\beta _{1}x)}f _{X}(x)dx}=\beta _{0}+\beta _{1}\mu _{X}$
- $\mu _{Y}=\beta _{0}+\beta _{1}\mu _{X}$
- $\mathbb{E}[Y|x]=\beta _{0}+\beta _{1}x=(\mu _{Y}-\beta _{1}\mu _{X})+\beta _{1}x=\mu _{Y}+\beta _{1}(x-\mu _{X})$
- 양변에 $(x-\mu _{X})$ 를 곱하고 평균을 취하면
- $[\mathbb{E}(Y|x)-\mu _{X}](x-\mu _{X})=\beta _{1}(x-\mu _{X}) ^{2}$
- $\displaystyle\int_{-\infty }^{\infty }{(y-\mu _{Y})(x-\mu _{X})f _{X,Y}(x,y)dy}=\beta _{1}(x-\mu _{X}) ^{2}f _{X}(x)$
- 이를 다시 양변 $x$ 에 대하여 적분하면
- $Cov(X,Y)= \beta _{1}\sigma _{X} ^{2}$
- $\beta _{1}=\displaystyle\frac{Cov(X,Y)}{\sigma _{X} ^{2}}=\displaystyle\frac{\sigma _{Y}}{\sigma _{X}}\cdot \displaystyle\frac{1}{\sigma _{X}\sigma _{Y}}Cov(X,Y)=\displaystyle\frac{\sigma _{Y}}{\sigma _{X}}\rho$
- $\mathbb{E}[Y|x]=\mu _{Y}+\displaystyle\frac{\sigma _{Y}}{\sigma _{X}}\rho(x-\mu _{X})$
- 종합하여 $\beta _{1}=\rho \displaystyle\frac{\sigma _{Y}}{\sigma _{X}}$ 이고, $\beta _{0}=\mu _{Y}-\rho \cdot \displaystyle\frac{\sigma _{Y}}{\sigma _{X}}\cdot \mu _{X}$
- 의미
- 독립변수를 1 표준편차(1 $\sigma _{X}$ ) 만큼 증가시키면 종속변수는 (1 $\rho \sigma _{Y})$ 만큼 증가하는 선형식이다

회귀모수의 추정

최소제곱추정방법 Least Square Estimate
- 반응함수 $Y _{i}$ 과 회귀함수의 값 $\beta _{0}+\beta _{1}x _{i}$ 가 주어졌을 때, 어떻게하면 오차를 최소화하는 $\beta _{0},\beta _{1}$ 를 구할것인가가 관심사가 될 수 있다
- $SSE=\langle {\boldsymbol{y}-\boldsymbol{x}}\boldsymbol{\beta},{\boldsymbol{y}-\boldsymbol{x}\boldsymbol{\beta}} \rangle=\displaystyle\sum\limits_{i=1}^{n}{(y _{i}-(\beta _{0}+\beta _{1}x _{i})) ^{2}}$
LSE를 활용한 추정량 $\hat{\boldsymbol{\beta}}$ 구하기 ref
- 다변수함수의 일반화된 추정량 공식을 활용하자( $\hat{\boldsymbol{\beta}}=(\boldsymbol{X} ^{t}\boldsymbol{X} )^{-1}\boldsymbol{X} ^{t}\boldsymbol{Y}$ )
- $\displaystyle\frac{1}{n}\boldsymbol{x} ^{t}\boldsymbol{y}=\displaystyle\frac{1}{n}\begin{bmatrix} 1 & 1 & \cdots & 1 \\ x _{1} & x _{2} & \cdots & x _{n} \end{bmatrix}\begin{bmatrix} y _{1} \\ y _{2} \\ \cdots \\ y _{n} \end{bmatrix}=\displaystyle\frac{1}{n}\begin{bmatrix} \displaystyle\sum\limits_{i=1}^{n}{y_i} \\ \displaystyle\sum\limits_{i=1}^{n}{x _{i}y _{i}} \end{bmatrix}$
- $=\begin{bmatrix} \overline{y} \\ \overline{xy} \end{bmatrix}$
- $\displaystyle\frac{1}{n}\boldsymbol{x} ^{t}\boldsymbol{x}=\displaystyle\frac{1}{n}\begin{bmatrix} 1 & 1 & \cdots & 1 \\ x _{1 } & x _{2} & \cdots & x _{n} \end{bmatrix}\begin{bmatrix} 1 & x _{1} \\ 1 & x _{2} \\ \cdots \\ 1 & x _{n} \end{bmatrix}$
- $=\displaystyle\frac{1}{n}\begin{bmatrix} n & \displaystyle\sum\limits_{i }^{}{x _{i}} \\ \displaystyle\sum\limits_{i}^{}{x _{i}} & \displaystyle\sum\limits_{i}^{}{x _{i} ^{2}} \end{bmatrix}$
- $=\begin{bmatrix} 1 & \overline{x} \\ \overline{x} & \overline{x ^{2}} \end{bmatrix}$
- $(\displaystyle\frac{1}{n}\boldsymbol{x} ^{t}\boldsymbol{x}) ^{-1}=\displaystyle\frac{1}{\overline{x ^{2}}-\overline{x} ^{2} }\begin{bmatrix} \overline{x} ^{2} & -\overline{x} \\ - \overline{x} & 1 \end{bmatrix}$
- $=\displaystyle\frac{1}{S _{X} ^{2}}\begin{bmatrix} \overline{x} ^{2} & - \overline{x} \\ -\overline{x} & 1 \end{bmatrix}$
$(\boldsymbol{x} ^{t}\boldsymbol{x})\boldsymbol{x} ^{t}\boldsymbol{y}$
- $=\displaystyle\frac{1}{S _{X} ^{2}}\begin{bmatrix} \overline{x} ^{2} & -\overline{x} \\ -\overline{x} & 1 \end{bmatrix}\begin{bmatrix} \overline{y} \\ \overline{xy} \end{bmatrix}$
- $=\displaystyle\frac{1}{S _{X} ^{2}}\begin{bmatrix} \overline{x ^{2}}\overline{y}-\overline{x}\cdot \overline{xy} \\ -\overline{x} \cdot \overline{y}+\overline{xy} \end{bmatrix}$
- $=\displaystyle\frac{1}{S _{X} ^{2}}\begin{bmatrix} (S _{X} ^{2}+ \overline{x} ^{2})\overline{y} - \overline{x}(C _{XY}+ \overline{x} \cdot \overline{y}) \\ C _{XY}\end{bmatrix}$
- $=\displaystyle\frac{1}{S _{X} ^{2}}\begin{bmatrix} S _{X} ^{2}\overline{y}+ \overline{x} ^{2}\overline{y}-\overline{x}C _{XY}-\overline{x} ^{2}\overline{y} \\ C _{XY} \end{bmatrix}$
- $=\begin{bmatrix} \overline{y}-\displaystyle\frac{C _{XY }}{S _{X} ^{2}} \overline{x} \\ \displaystyle\frac{C _{XY}}{S _{X} ^{2}} \end{bmatrix}$
MLE를 활용한 추정량 $\hat{\boldsymbol{\beta}}$ 구하기
- 조건
- 서로 독립인 확률변수 $Y _{1},Y _{2},\cdots,Y _{n}$ 이 각각 $\mathcal{N}(\beta _{0}+\beta _{1}t,\sigma ^{2})$ 를 따른다고 하자
- 정리
- 이때 모수 $\beta _{0},\beta _{1},\sigma ^{2}$ 에 대한 추정량은 다음과 같다
- $\hat{\beta _{1}}=\displaystyle\frac{Cov(X,Y)}{S _{X} ^{2}}$
- $\hat{\beta _{0}}=\overline{y}-\displaystyle\frac{Cov(X,Y)}{S _{X} ^{2}}\overline{x}$
- $\hat{\sigma} ^{2}=\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{(y _{i}-(\hat{\beta}_{0}+\hat{\beta}_{1}x _{i}) ) ^{2}}$ 이다
- 증명
- $f(\boldsymbol{x};\beta _{0},\beta _{1},\sigma)=(\displaystyle\frac{1}{2 \pi \sigma ^{2}}) ^{n/2}exp[-(\displaystyle\frac{1}{2\sigma ^{2}})\displaystyle\sum\limits_{i=1}^{n}{(y_{i}-(\beta _{0}+\beta _{1}x _{i})) ^{2}}]$
- $L=\log_{}{(f)}=(-n/2)\log_{}{(2\pi \sigma ^{2})}-(1/2 \sigma ^{2})\displaystyle\sum\limits_{i=1}^{n}{(y _{i}-(\beta _{0}+\beta _{1}x _{i})) ^{2}}$
- $\cfrac{\partial {L}}{\partial {\beta _{0}}}:\displaystyle\sum\limits_{i=1}^{n}{y _{i}-(\beta _{0}+\beta _{1}x _{i})}=0$
- $\cfrac{\partial {L}}{\partial {\beta _{1}}}: \displaystyle\sum\limits_{i=1}^{n}{x _{i}(y _{i}-(\beta _{0}+\beta _{1}x _{i}))}=0$
- $\cfrac{\partial {L}}{\partial {\sigma }}:- \displaystyle\frac{n}{\sigma}+\displaystyle\frac{1}{\sigma ^{3}}\displaystyle\sum\limits_{i=1}^{n}{(y _{i}-(\beta _{0}+\beta _{1}x _{i}))}=0$
- 위의 두 식은 MLE 구할때의 나온 값으로 $\hat{\beta}_{0}=\overline{y}-\displaystyle\frac{Cov(X,Y)}{S _{X} ^{2}}\overline{x}$ , $\hat{\beta}_{1}=\displaystyle\frac{Cov(X,Y)}{S _{X} ^{2}}$ 임을 알 수 있다.
- $\hat{\sigma} ^{2}=\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{(y _{i}-(\hat{\beta}_{0}+\hat{\beta}_{1}x _{i})) ^{2}}$

추정량의 성질

조건
- 서로 독립인 확률변수 $Y _{1},Y _{2},\cdots, Y _{n}$ 이 각각 $\mathcal{N}(\beta _{0}+\beta _{1}x _{i},\sigma ^{2})$ 를 따른다고 하자
정리
- 이때 $\beta _{0},\beta _{1}$ 에 대한 최대가능도추정량MLE $\hat{\beta}_{0},\hat{\beta}_{1}$ 값은 다음과 같다
- $\hat{\beta}_{0} \sim \mathcal{N}[\beta _{0},\displaystyle\frac{\sigma ^{2}\displaystyle\sum\limits_{i=1}^{n}{x _{i} ^{2}}}{n \displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}]$
- $\hat{\beta}_{1} \sim \mathcal{N}[\beta _{1},\displaystyle\frac{\sigma ^{2}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}]$

증명
-

\hat{\beta}_{1}=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})(y _{i}-\overline{y})}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})y _{i}}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x }_{n}) ^{2}}}

는 서로 독립인

y _{i}

의 선형결합이므로

\hat{\beta}_{1}

는 정규분포를 따른다.

	1. $\mathbb{E}[\hat{\beta}_{1}]=\mathbb{E}[\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})y _{i}}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}]=\mathbb{E}[\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x }_{n})(\beta _{0}+\beta _{1}x _{i})}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}]$
		- $=\beta _{1}\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})x _{i}}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}=\beta _{1}$
	2. $\mathbb{E}[\hat{\beta}_{0}]=\mathbb{E}[\overline{y}_{n}]-\hat{\beta}_{1}\mathbb{E}[x _{n}]=\hat{\beta}_{0}$
	3. $Var(\hat{\beta}_{1})=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}Var(y _{i})}}{(\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x }_{n}) ^{ ^{2}}}) ^{2}}$
		- $\displaystyle\frac{\sigma  ^{2}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}}) ^{2}}$
	4. 먼저 다음을 보이자
		- $Cov(\hat{\beta}_{1},y _{i})=Cov(\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})y _{i}}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}},y _{i})=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}\sigma  ^{2}=0$
		- $Cov(\hat{\beta}_{1},\overline{y})=\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{Cov(\hat{\beta}_{1},y _{i})}=0$
		- $Var(\hat{\beta}_{0})=Var(\overline{y}_{n}-\hat{\beta}_{1}\overline{x}_{n})$
		- $=Var(\overline{Y}_{n})+Var(\hat{\beta} _{1}\overline{x}_{n})+2 Cov(\overline{Y}_{n},-\hat{\beta}_{1}\overline{x}_{n})$
		- $=\sigma  ^{2}/n+\displaystyle\frac{\overline{x}_{n} ^{2}\sigma  ^{2}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}$
		- $=\displaystyle\frac{\sigma  ^{2}\displaystyle\sum\limits_{i=1}^{n}{x _{i} ^{2}}}{n \displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}$

주요 추정 정리

조건
- 서로 독립인 확률변수 $Y _{1},Y _{2},\cdots, Y _{n}$ 이 각각 $\mathcal{N}(\beta _{0}+\beta _{1}x _{i},\sigma ^{2})$ 를 따른다고 하자
정리 1
- $\displaystyle\frac{n \hat{\sigma} ^{2}}{\sigma ^{2}}$ 는 자유도가 $n-2$ 인 카이제곱분포를 따른다
정리 2
- 확률변량 $\displaystyle\frac{(\hat{\beta}_{1}-\beta _{1})\sqrt{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}}{\tilde{\sigma}}$ 는 자유도가 $n-2$ 인 $t$ 분포를 따른다
- 단 $\tilde{\sigma} ^{2}=\displaystyle\frac{1}{n-2}\displaystyle\sum\limits_{i=1}^{n}{(y _{i}-(\beta _{0}+\beta _{1}x _{i})) ^{2}}$

다중선형 회귀모형

multiple linear regression

정의
- $\mathbb{E}[Y|{x}_{1},{x}_{2},\cdots,{x}_{k}]=\displaystyle\sum\limits_{i=0}^{k}{\beta _{i}x _{i}}$
행렬을 이용한 표현
- 조건
- $\boldsymbol{Y}=\begin{bmatrix} Y _{1} \\ Y _{2} \\ \cdots \\ Y _{n} \end{bmatrix}$ , $\boldsymbol{\beta}=\begin{bmatrix} \beta _{0} \\ \beta _{1} \\ \cdots \\ \beta _{k}\end{bmatrix}$ , $\boldsymbol{X}=\begin{bmatrix} 1 & X _{11} & X _{12} & \cdots & X _{1k} \\ 1 & X _{21} & X _{22} & \cdots & X _{2k} \\ \cdots \\ 1 & X _{n1} & X _{n2} & \cdots & X _{nk} \end{bmatrix}$
- 정의
- $\mathbb{E}[\boldsymbol{Y}]=\boldsymbol{X}\boldsymbol{\beta}$
잔차제곱합 Residual Sum of Square
- 정의
- RSS= $\| \boldsymbol{Y}-\hat{\boldsymbol{Y}} \| ^{2}$
- $=\langle {\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\beta}},{\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\beta}} \rangle$
성질
- $Cov(\boldsymbol{Y})=\sigma ^{2}I$ 는 만족해야하는 조건이므로, 관측치 $y _{i}$ 를 활용하여 자연스럽게 noise 값 $\sigma ^{2}$ 를 계산할 수 있다
- 랜덤 오차 $\epsilon \in \mathcal{N}(0,\sigma ^{2})$ 를 따르는 경우 회귀모수에 대한 최소제곱 추정량은 $\hat{\boldsymbol{\beta}}\sim \mathcal{N}(\boldsymbol{\beta},(\boldsymbol{X} ^{t}\boldsymbol{X}) ^{-1}\sigma ^{2})$ 를 따르게 된다
모수 추정량 $\hat{\boldsymbol{\beta}}$ 구하기
- 결과
- $\hat{\boldsymbol{\beta}}=(\boldsymbol{X} ^{t}\boldsymbol{X} )^{-1}\boldsymbol{X} ^{t}\boldsymbol{Y}$ 이다
- 증명
- $RSS=|\boldsymbol{Y}-\boldsymbol{X}\beta|^2=\langle \boldsymbol{Y}-\boldsymbol{X}\beta,\boldsymbol{Y}-\boldsymbol{X}\beta\rangle=$ $(\boldsymbol{Y}-\boldsymbol{X}\beta)^T(\boldsymbol{Y}-\boldsymbol{X}\beta)=(\boldsymbol{Y}^T-\beta^T\boldsymbol{X}^T)(\boldsymbol{Y}-\boldsymbol{X}\beta)=\boldsymbol{Y}^T\boldsymbol{Y}-\boldsymbol{Y}^T\boldsymbol{X}\beta-\beta^T\boldsymbol{X}^T\boldsymbol{Y}+\beta^T\boldsymbol{X}^T\boldsymbol{X}\beta$
- $=\boldsymbol{Y}^T\boldsymbol{Y}-2\beta^T\boldsymbol{X}^T\boldsymbol{Y}+\beta^T\boldsymbol{X}^T\boldsymbol{X}\beta$
- ( $\displaystyle\frac{\partial {\boldsymbol{A}\boldsymbol{x}}}{\partial {\boldsymbol{x}}}=\boldsymbol{A}$ , $\displaystyle\frac{\partial {\boldsymbol{x}\boldsymbol{A}\boldsymbol{x}}}{\partial {\boldsymbol{x}}}=2\boldsymbol{A}\boldsymbol{x}$ ( $\boldsymbol{A}$ 가 대칭행렬일 경우)을 활용함)
- 미분을 이용하여 $RSS$ 를 최소화하는 계수값을 찾자
- $\displaystyle\frac{\partial{(RSS)}}{\partial\beta}=-2\boldsymbol{X}^T\boldsymbol{Y}+2\beta^T(\boldsymbol{X}^T\boldsymbol{X})=0$
- $\boldsymbol{X}^T\boldsymbol{X}\beta=\boldsymbol{X}^T\boldsymbol{Y}$
- $\beta=(\boldsymbol{X}^T\boldsymbol{X})^{-1}(\boldsymbol{X}^T\boldsymbol{Y})$ : 추정된 $\beta$ 값

가우스-마코프 정리

용어 정리
- 선형 추정량
- $Y _{i}$ 의 선형결합으로 표현되는 추정량
- 최적
- 임의의 상수 $r _{i}$ 에 대하여 선형결합인 $\displaystyle\sum\limits_{i=0}^{k}{r_{i}\beta _{i}}$ 추정을 고려하였을 때, 임의의 선형 비편향추정량인 $\tilde{\beta}_{i}$ 에 대해 $\displaystyle\sum\limits_{i=0}^{k}{r _{i}\hat{\beta}_{i}}$ 의 분산이 항상 $\displaystyle\sum\limits_{i=0}^{k}{r _{i}\tilde{\beta _{i}}}$ 의 분산보다 작거나 같다는 것이다.
- 즉 $\displaystyle\sum\limits_{i=0}^{k}{r _{i}\hat{\beta}_{i}}$ 는 $\displaystyle\sum\limits_{i=0}^{k}{r _{i}\beta _{i}}$ 에 대한 최소분산 비편향추정량인 것이다.
조건
- 선형모형 $\mathbb{E}[\boldsymbol{Y}|\boldsymbol{X}]=\boldsymbol{X}\boldsymbol{\beta}$ 의 공산-공분산 행렬이 $\boldsymbol{V}=\sigma ^{2}\boldsymbol{I}$ 라고 하자.
정리
- 임의의 상수벡터 $\boldsymbol{r}$ 에 대하여 $\boldsymbol{r}'\boldsymbol{\hat{\beta}}$ 가 $\boldsymbol{r}'\beta$ 의 최적 비편향 선형추정량이다
- 즉 회계계수 $\beta _{i}$ 의 선형결합에 대한 최적 비편향 선형추정량은 $\beta _{i}$ 를 그의 최소제곱 추정량으로 대체함으로서 구할 수 있다

결정계수

조건
- TSS (Total Sum of Square)
- $\displaystyle\sum_{i}^{}{(y_{i}-\bar{y})^2}$
- 종속변수의 변동성을 측정한 것
- RSS (Residual Sum of Suare)
- $\displaystyle\sum_{i}^{}{(y_{i}-\hat{y}_{i})^2}$
- 회귀식의 변동성의 양을 측정한 것이다
- ESS(Explained Sum of Square)
- $\displaystyle\sum\limits_{i}^{}{(\hat{y} _{i}-\overline{y}) ^{2}}$
- 회귀식에 의해 줄어든 변동성을 측정한 양이다
- $TSS-RSS$ 는 회귀를 수행하여 설명되는 종속변수의 변동성을 측정한 것이다

정의

	-  $R^2=\displaystyle\frac{TSS-RSS}{TSS}=\displaystyle\frac{ESS}{TSS}={\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(\hat{y} _{i}-\overline{y }_{n}) ^{2}}}{\displaystyle\sum\limits_{i=1}^{n}{(y _{i}-\overline{y}_{n}) ^{2}}}}$

해석
- 즉 $R^2$ 는 회귀분석을 통하여 설명되는 종속변수의 변동성의 비율이다. 0에 가까울 경우 회귀분석이 종속변수의 변동성을 많이 설명할 수 없다는 것이고, 1의 경우는 반대로 해석할 수 있다
- 각각 $TSS$ 와 $RSS$ 측정하는 것을 보여주고 있다. 오른쪽 선형회귀 그래프가 왼쪽 그래프와 비교하여 데이터에 더 적합할 수록 $R^2$ 값이 1에 가까워진다
결정계수와 표본상관계수 사이의 관계
- 표본상관계수 $R$ 의 정의는 다음과 같다
- $R=\displaystyle\frac{S _{XY}}{S _{X}S _{Y}}=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{[(X _{i}-\overline{X}_{n})(Y _{i}-\overline{Y}_{n})]}}{\sqrt{\displaystyle\sum\limits_{i=1}^{n}{(X _{i}-\overline{X}_{n}) ^{2}}}\cdot \sqrt{\displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\overline{Y}_{n}) ^{2}}}}$
- $\hat{\beta}_{1}=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{y }_{n})(y _{i}-\overline{y}_{n})}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}$
- $\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{\hat{Y}_{i}}=\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{(\hat{\beta} _{0}+ \hat{\beta} _{1}X _{i})}=\displaystyle\frac{1}{n}(n \hat{\beta} _{0}+n \hat{\beta} _{1}\overline{X }_{n})=\hat{\beta} _{0}+ \hat{\beta} _{1}\overline{X}_{n}= \overline{Y}_{n}$ 의 성질을 활용하자
- $R ^{2}=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(\hat{Y}_{i}-\overline{Y}_{n}) ^{2}}}{\displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\overline{Y}_{n}) ^{2}}}=\displaystyle\frac{\hat{\beta}_{1} ^{2}\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x} _{i}) ^{2}}}{\displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\overline{Y}_{n}) ^{2}}}$
- $=\displaystyle\frac{[\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x }_{n})(Y _{i}-\overline{Y}_{n})}] ^{2}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{4}}}\cdot \displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x }_{n}) ^{2}}}{\displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\overline{Y }_{n}) ^{2}}}$
- $=\displaystyle\frac{[\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})(Y _{i}-\overline{Y}_{n}) ^{2}}]}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}\displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\overline{Y}_{n}) ^{2}}}}=(\displaystyle\frac{S _{XY}}{S _{X}S _{Y }}) ^{2}=(\text{표본상관계수로써의 }R) ^{2}$

모형의 가설검정

완전모형 Full Model
- 원래의 형태의 모델
축소 모형 Reduced Model
- 귀무가설에서 가정된 모델
- 귀무가설에서 일부의 파라미터가 0일것이라고 가정한다
가설검정과정
- 조건
- 완전모형하에서의 잔차제곱함
- $RSS(FM)=\displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\hat{Y} _{i}) ^{2}}$
- 완전모형이 회귀계수 $({\beta}_{0},{\beta}_{1},\cdots,{\beta}_{p})$ 이 있다 가정하자
- $p+1$ 의 회귀계수가 있다고 가정하자
- 축소모형에서 잔차제곱합
- $RSS(FM)=\displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\hat{Y} _{i} ^{*}) ^{2}}$
- 완전모형의 회귀계수 $({\beta}_{0},{\beta}_{1},\cdots,{\beta}_{p})$ 의 일부를 0으로 둔다
- $k+1$ 의 회귀계수가 있다고 가정하자
- 정리
- $F=\displaystyle\frac{[RSS(RM)-RSS(FM)]/(p-k)}{RSS(FM)/(n-p-1)}$ 는 $(p-k,n-p-1)$ 의 자유도를 갖는 $F$ 분포를 따른다
-

* 창고

증명
- $S _{X} ^{2}=\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\frac{(X _{i}-\overline{X}_{n}) ^{2}}{n-1}}$
- $S _{Y}=\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\frac{(Y- \overline{Y}_{n}) ^{2}}{(n-1)}}$
- $S _{XY}=\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\frac{(X _{i}-\overline{X }_{n})(Y _{i}-\overline{Y}_{n})}{n-1}}$
- 이라 하자 $S _{X},S _{Y},S _{XY}$ 는 각각 $X$ 의 표본분산, $Y$ 의 표본분산, $X,Y$ 의 표본공분산이다.
- $R=\displaystyle\frac{S _{XY}}{S _{X}\cdot S _{Y}}$ 이다
- $T=\displaystyle\frac{R \sqrt{n-2}}{\sqrt{1-R ^{2}}}=\displaystyle\frac{\displaystyle\frac{S _{Y}}{\sigma _{Y}}\cdot R}{\sqrt{\displaystyle\frac{1}{n-2}\cdot [\displaystyle\frac{S _{Y} ^{2}}{\sigma _{Y} ^{2}}(1-R ^{2})]}}$
- $=\displaystyle\frac{\displaystyle\frac{R S _{Y}/S _{X}}{\sigma _{Y}/(\sqrt{n-1}S _{X})}}{\sqrt{\displaystyle\frac{1}{n-2}[(n-1)S _{Y} ^{2}(1-R ^{2})/\sigma _{Y} ^{2}]}}$ 이다
- 두 정규확률변수가 독립일때 $Y$ 의 조건부 확률분포는 $Y$ 주변 확률분포와 동일한 $\mathcal{N}(\mu _{Y},\sigma _{Y} ^{2})$ 이고
- $R S _{Y}/S _{X}=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x _{n}})Y _{i}}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}} \sim \mathcal{N}(0,\sigma ^{2}_{Y}/(n-1)\sigma _{X} ^{2})$ 이다
- $\displaystyle\frac{S _{XY}}{S _{X}S _{Y}}\cdot \displaystyle\frac{S _{Y}}{S _{X}}=\displaystyle\frac{S _{XY}}{S _{X} ^{2}}$
$\cfrac{\partial {SSE}}{\partial {\beta _{0}}}=\displaystyle\sum\limits_{i=1}^{n}{2(-1)(y _{i}-(\beta _{0}+\beta _{1}x _{i}))}=0$
- $=\displaystyle\sum\limits_{i=1}^{n}{y _{i}-(\beta _{0}+\beta _{1}x _{i})}=0$
- $n \overline{y}_{n}-n \beta _{0}+n \beta _{1} \overline{x}_{n}=0$
- $\hat{\beta}_{0}=\overline{y}-\beta _{1}\overline{x}_{}$
$\cfrac{\partial {SSE}}{\partial {\beta _{1}}}=\displaystyle\sum\limits_{i=1}^{n}{-2x _{i}(y _{i}-(\beta _{0}+\beta _{1}x _{i}))}=0$
- $\displaystyle\sum\limits_{i=1}^{n}{x _{i}(y _{i}-(\beta _{0}+\beta _{1}x _{i}))}=0$
$\displaystyle\sum\limits_{i=1}^{n}{x _{i}y _{i}}-n \beta _{0}+n\beta _{1}\overline{x _{n}}=0$
$=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{X _{i}Y _{i}-n \overline{X}_{n}\overline{Y}_{n}}}{\sqrt{\displaystyle\sum\limits_{i=1}^{n}{(X _{i}-\overline{X}_{n}) ^{2}}}\cdot \displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\overline{Y}_{n}) ^{2}}}$
- $R ^{2}=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(\hat{Y} _{i}-\overline{Y}_{n}) ^{2}}}{\displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\overline{Y}_{n}) ^{2}}}=\displaystyle\frac{[\displaystyle\sum\limits_{i=1}^{n}{\hat{Y}_{i}-\overline{Y}_{n}}] ^{2}}{\displaystyle\sum\limits_{i=1}^{n}{(Y _{i}-\overline{Y}_{n}) ^{2}\displaystyle\sum\limits_{i=1}^{n}{(\hat{Y}_{n}-\overline{Y}_{n}) ^{2}}}}$

WooSeongkyun

안녕하세요!

이전 포스트

수리통계- 6.회귀분석

수리통계학

상관분석

1변수 선형회귀모형

회귀모수의 추정

추정량의 성질

주요 추정 정리

다중선형 회귀모형

가우스-마코프 정리

결정계수

모형의 가설검정

* 창고

수리통계- 5. 가설검정

0개의 댓글