correlation analysis
의미
- 두 변수 사이의 선형관계가 유의미 하게 존재하는지, 존재한다면 어느정도의 선형관계인지 '상관계수'라는 정량화된 값을 통하여 분석하는 방법
상관계수 correlation coefficient
- 두 변수 , 사이의 선형관계를 측정하는 상관계수는 다음과 같이 정의된다
-
성질
1.
2.
3.
4. 의 필요충분조건은 이다
5. 확률 변수 와 가 서로 독립이면 이다
증명
2.
-
-
3. -
- 증명
- , 라고 하자
-
-
-
- 이므로 . 도 동일하게 증명된다.
-
-
-
- 으로 부터 , 으로 부터 이란 사실을 얻어
-
4. 이면 이다.
- 분산이 0이라면, 가 0이라는 것인데, 제곱항이 항상 0이상의 수이므로, 평균하였을 때 0이 나오려면 이라는 결과가 나온다. 따라서 , 가 상수임을 알 수 있다.
- 는 상수이다. 이 경우
-
-
- 인경우 이 되어 이경우 앞에 붙은 계수 부호가 - 가 된다
표본 상관계수 sample correlation coefficient
- 조건
- 샘플 크기가 인 이변량 랜덤표본 이 있다고 하자
- 정의
-
정리
- 조건
- 샘플 크기가 인 이변량 랜덤표본 이 있다고 하자
- 모수벡터가 라고 하자
- 이때 상관계수 이라고 하자
- 정리
- 표본상관계수 의 함수인 통계량 는 자유도가 인 분포를 따른다
- 의미
- 귀무가설 $H:\rho =0$ , 대립가설 $H _{1}:\rho \neq 0$ 로 하여 $|T|\ge t _{\alpha/2}(n-2)$ 일 때 귀무가설을 기각하는 방식으로 활용한다
- 그러나 반대로 $\rho \neq 0$ 가 아닌 경우 $R$의 분포가 복잡하기 때문에, Fisher가 사용한 다른 방식을 활용해야 한다.
simple linear regression
1. $\mathbb{E}[\hat{\beta}_{1}]=\mathbb{E}[\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})y _{i}}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}]=\mathbb{E}[\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x }_{n})(\beta _{0}+\beta _{1}x _{i})}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}]$
- $=\beta _{1}\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})x _{i}}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}=\beta _{1}$
2. $\mathbb{E}[\hat{\beta}_{0}]=\mathbb{E}[\overline{y}_{n}]-\hat{\beta}_{1}\mathbb{E}[x _{n}]=\hat{\beta}_{0}$
3. $Var(\hat{\beta}_{1})=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}Var(y _{i})}}{(\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x }_{n}) ^{ ^{2}}}) ^{2}}$
- $\displaystyle\frac{\sigma ^{2}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}}) ^{2}}$
4. 먼저 다음을 보이자
- $Cov(\hat{\beta}_{1},y _{i})=Cov(\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})y _{i}}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}},y _{i})=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}\sigma ^{2}=0$
- $Cov(\hat{\beta}_{1},\overline{y})=\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{Cov(\hat{\beta}_{1},y _{i})}=0$
- $Var(\hat{\beta}_{0})=Var(\overline{y}_{n}-\hat{\beta}_{1}\overline{x}_{n})$
- $=Var(\overline{Y}_{n})+Var(\hat{\beta} _{1}\overline{x}_{n})+2 Cov(\overline{Y}_{n},-\hat{\beta}_{1}\overline{x}_{n})$
- $=\sigma ^{2}/n+\displaystyle\frac{\overline{x}_{n} ^{2}\sigma ^{2}}{\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}$
- $=\displaystyle\frac{\sigma ^{2}\displaystyle\sum\limits_{i=1}^{n}{x _{i} ^{2}}}{n \displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n}) ^{2}}}$
multiple linear regression
조건
- TSS (Total Sum of Square)
-
- 종속변수의 변동성을 측정한 것
- RSS (Residual Sum of Suare)
-
- 회귀식의 변동성의 양을 측정한 것이다
- ESS(Explained Sum of Square)
-
- 회귀식에 의해 줄어든 변동성을 측정한 양이다
- 는 회귀를 수행하여 설명되는 종속변수의 변동성을 측정한 것이다
정의
- $R^2=\displaystyle\frac{TSS-RSS}{TSS}=\displaystyle\frac{ESS}{TSS}={\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{(\hat{y} _{i}-\overline{y }_{n}) ^{2}}}{\displaystyle\sum\limits_{i=1}^{n}{(y _{i}-\overline{y}_{n}) ^{2}}}}$
해석
- 즉 는 회귀분석을 통하여 설명되는 종속변수의 변동성의 비율이다. 0에 가까울 경우 회귀분석이 종속변수의 변동성을 많이 설명할 수 없다는 것이고, 1의 경우는 반대로 해석할 수 있다
- 각각 와 측정하는 것을 보여주고 있다. 오른쪽 선형회귀 그래프가 왼쪽 그래프와 비교하여 데이터에 더 적합할 수록 값이 1에 가까워진다
결정계수와 표본상관계수 사이의 관계
- 표본상관계수 의 정의는 다음과 같다
-
-
- 의 성질을 활용하자
-
-
-