[Mathematical Statistics] 2. The correlation coefficient

박경민·2024년 8월 5일
0

[Mathematical Statistics]

목록 보기
6/24

2.5 The correlation coefficient (상관계수)

상관계수의 정의는 공분산으로부터 시작한다. X와 Y에 대해 각각 expectation 과 variance 가 있다고 할 때,

Definition (공분산)

  • The covariance (공분산) between XX and YY :
Cov(X,Y):=E[(Xμ1)(Yμ2)]=E(XY)E(X)E(Y)\operatorname{Cov}(X, Y):=\mathrm{E}\left[\left(X-\mu_{1}\right)\left(Y-\mu_{2}\right)\right]=\mathrm{E}(X Y)-\mathrm{E}(X) \mathrm{E}(Y)

공분산은 서로 다른 변수 X, Y가 그들 각각의 평균과 떨어진 값을 곱한 것의 기댓값이다. 간단히 전개해서 적분의 linearity 를 이용해보면 정리된 식이 당연하다는 것을 받아들일 수 있다. 그림으로 표현하면 다음과 같다.

  • The correlation coefficient (상관계수) between XX and YY :
ρ:=Corr(X,Y):=Cov(X,Y)σ1σ2=E[(Xμ1)(Yμ2)]σ1σ2.\rho:=\operatorname{Corr}(X, Y):=\frac{\operatorname{Cov}(X, Y)}{\sigma_{1} \sigma_{2}}=\frac{\mathrm{E}\left[\left(X-\mu_{1}\right)\left(Y-\mu_{2}\right)\right]}{\sigma_{1} \sigma_{2}} .

상관계수는 여기에 각각의 sigma를 분모에 취해준 것이다. 따라서 범위가 (-1,1) 로 제한되며, 양음을 표시하는 것 이외 scale 도 파악할 수 있는 Covariance 와 달리 scale 에 대한 정보가 없다.

우리가 알고 있는 분산에 대해 쓰면 다음과 같이 정리할 수 있다.

(Example)
Let the random variables XX and YY have the joint pdf f(x,y)=f(x, y)= x+y,0<x<1,0<y<1x+y, 0<x<1,0<y<1. Compute the correlation coefficient of XX and YY.

(Sol) Note that

μ1=E(X)=0101x(x+y)dxdy=01[13x3+12x2y]01dy=0113+12ydy=[13y+14y2]01=712σ12=E(X2)μ12=0101x2(x+y)dxdy(712)2=01[14x4+13x3y]01dy(712)2=0114+13ydy(712)2=[14y+16y2]01(712)2=11144.\begin{aligned} \mu_{1} & =\mathrm{E}(X)=\int_{0}^{1} \int_{0}^{1} x(x+y) d x d y=\int_{0}^{1}\left[\frac{1}{3} x^{3}+\frac{1}{2} x^{2} y\right]_{0}^{1} d y \\ & =\int_{0}^{1} \frac{1}{3}+\frac{1}{2} y d y=\left[\frac{1}{3} y+\frac{1}{4} y^{2}\right]_{0}^{1}=\frac{7}{12} \\ \sigma_{1}^{2} & =\mathrm{E}\left(X^{2}\right)-\mu_{1}^{2} \\ & =\int_{0}^{1} \int_{0}^{1} x^{2}(x+y) d x d y-\left(\frac{7}{12}\right)^{2}=\int_{0}^{1}\left[\frac{1}{4} x^{4}+\frac{1}{3} x^{3} y\right]_{0}^{1} d y-\left(\frac{7}{12}\right)^{2} \\ & =\int_{0}^{1} \frac{1}{4}+\frac{1}{3} y d y-\left(\frac{7}{12}\right)^{2}=\left[\frac{1}{4} y+\frac{1}{6} y^{2}\right]_{0}^{1}-\left(\frac{7}{12}\right)^{2}=\frac{11}{144} . \end{aligned}

Similarly, μ2=E(Y)=712\mu_{2}=E(Y)=\frac{7}{12} and σ22=Var(Y)=11144\sigma_{2}^{2}=\operatorname{Var}(Y)=\frac{11}{144}. Then,

  • joint pdf 가 주어질 때 X and Y의 coefficient 를 구하는 문제.
  • coefficient 를 구하려면 먼저 covariance 를 구해야 하고, 그러려면 E(XY)와 X, Y의 각 평균 값이 필요하다.
  • E(XY)는 joint pdf 가 이미 주어졌으므로 서로 다른 변수에 대해 (support 에 대해) 두 번 적분하여 구할 수 있고, 각각의 평균은 marginal distribution 을 구하는 technique.
  • 이 문제에선 joint pdf 가 x+y로 대칭의 형태를 이루고 있으므로, X에 대해 분산과 평균을 구했다면 이를 Y에 대한 상황에서도 동일하다고 보면 쉽다.

Theorem (Cauchy-Schwartz inequality).
For any random vectors (X,Y)(X, Y) whose covariance exists,

Cov(X,Y)Var(X)Var(Y)|\operatorname{Cov}(X, Y)| \leq \sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}

Thus,

1Corr(X,Y)1-1 \leq \operatorname{Corr}(X, Y) \leq 1

r.v's X,Y가 주어질 때 두 변수의 Covariance 는 (절댓값은) 각각의 variance 의 곱에 루트를 씌운 값보다 항상 작거나 같다는 것이다. 그렇다면 궁금한 것은.. 등호는 과연 어떤 case 에서 성립하느냐이다. 등호가 성립하는 조건은, 한 변수를 다른 변수의 상수배처럼 쓸 수 있을 경우이다.

이는 Corr(X, Y)가 1또는 -1인 경우에 속하며, 이 경우 한 변수를 다른 한 변수의 선형 변환으로 쓸 수 있다.

  • ρ=1(ρ=1)\rho=1(\rho=-1) iff there exist a>0(a<0)a>0(a<0) and bRb \in \mathbb{R} s.t. P(Y=P(Y= aX+b)=1a X+b)=1.

\rightarrow (Covariance and) correlation measures only a linear relationship.

다음은 covariance의 성질을 확인하고 마무리하자.

Theorem (X와 Y가 독립이라면 Cov, Corr 는 모두 0이다.)
If XX and YY are independent random variables, then Cov(X,Y)=\operatorname{Cov}(X, Y)= 0 and hence Corr(X,Y)=0\operatorname{Corr}(X, Y)=0.

Proof sketch. From the independence, E[(Xμ1)(Yμ2)]=E[(Xμ1)]E[(Y\mathrm{E}\left[\left(X-\mu_{1}\right)\left(Y-\mu_{2}\right)\right]=\mathrm{E}\left[\left(X-\mu_{1}\right)\right] \mathrm{E}[(Y- μ2)]=0\left.\left.\mu_{2}\right)\right]=0.

  • 증명은 간단히 Cov의 정의로부터 시작하여, 독립일 경우 두 변수 곱으로 연결된 Expectation 을 각각의 expectation 곱으로 꺼낼 수 있음, 각 (변수 - 평균)의 expectation 은 항상 0임을 쓴다.
  • 이에 대한 역은 참이 아님에 유의한다. 즉, $\operatorname{Cov}(X, Y)=\operatorname{Corr}(X, Y)=0, 이라 하더라도, X와 Y가 dependent 일 수 있다.

(c.e.)

Theorem (Properties of covariance).
If XX and YY are any two r.v.'s. Then,

(i) Cov(X,X)=Var(X)\operatorname{Cov}(X, X)=\operatorname{Var}(X);

(ii) Cov(X,Y)=Cov(Y,X)\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X);

(iii) For any a,b,c,dR,Cov(aX+c,bY+d)=abCov(X,Y)a, b, c, d \in \mathbb{R}, \operatorname{Cov}(a X+c, b Y+d)=a b \operatorname{Cov}(X, Y);

(iv) For any a,bRa, b \in \mathbb{R},

Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)\operatorname{Var}(a X+b Y)=a^{2} \operatorname{Var}(X)+b^{2} \operatorname{Var}(Y)+2 a b \operatorname{Cov}(X, Y)

1, 2번은 쉽게 생각해볼 수 있고 3, 4번이 중요하다. 3번은 각 변수를 선형 변환한 것의 Covariance 가 Covariance 에 그만큼의 실수배를 취함을 말하고 있다. 이는 X, Y에 대해 실수배해줄 때는 분명 변수에 대해 편차를 바꿀 수 있으므로 Covariance 에 반영이 되고, 뒤에 무언가를 더하는 것은 편차를 바꾸지는 않는다고 직관적으로 이해 가능하다. 4번의 증명은 아래와 같다.

만약 4번에 X와 Y가 independent 라는 조건이 더해진다면? Cov = 0이므로, 앞쪽의 각 변수의 variance 끼리만 더해주면 된다.

  • If XYX \perp Y, then what is Var(aX+bY)\operatorname{Var}(a X+b Y) ?


profile
Mathematics, Algorithm, and IDEA for AI research🦖

0개의 댓글