21강 - 공분산과 상관계수

MostlyFor·2023년 1월 9일

확률론

목록 보기

20/20

해당 내용은 아래 강좌를 정리한 내용입니다.
https://www.edwith.org/ai152

학습목표

공분산의 특성을 이해하고 활용할 수 있다.

핵심 키워드

공분산(covariance)
상관(correlation)
다항분포(multinomial distribution)
이항분포(binomial distribution)
초기하분포(hypergeometric distribution)
공분산(Covariance)의 정의 및 성질

$Cov(X,Y)=E((X-E(X))(Y-E(Y))\\=E(XY)-E(X)E(Y)$

공분산의 의미 :

공분산은 X가 평균보다 클 때 Y도 대체로 평균보다 크다면 양수가 나오게 설계하고 X가 평균보다 작을 때 Y도 평균보다 작다면 양수가 나오게 설계함.
- 정의에 의해 X,Y가 독립이라면 공분산은 0임.
  
  공분산이 중요한 이유 : 분산의 합을 다룰 수 있기 때문
  
  공분산의 성질
  $1)~Cov(X,X)=Var(X)\\ 2)~Cov(X,Y)=Cov(Y,X)\\ 3)~Cov(X,c)=0\\ 4)~Cov(X,cY)=cCov(X,Y)\\ 5)~Cov(X,Y+Z)=Cov(X,Y)+Cov(X,Z)\\ 6)~Var(X_1+X_2)\\ =Cov(X_1+X_2,X_1+X_2)=Cov(X_1,X_1)+2Cov(X_1,X_2)+Cov(X_2,X_2)\\ =V(X_1)+V(X_2), if, X,Y~ indep$
  4번과 5번은 정의식에 대입하면 바로 나오는데 꽤나 유용한 성질임. 그리고 X를 고정했을 때 Y는 선형성을 띄는 것 같이 보이는데 이걸 이중 선형성이라고함.
상관(Correlation)

상관의 정의 :

$Corr(X,Y)=\frac{Cov(X,Y)}{SD(X)SD(Y)}=Cov(\frac{X-E(X)}{SD(X)},\frac{Y-E(Y)}{SD(Y)})\\ because \\Cov(X-E(X),Y)=E((X-m)Y)-E(X-m)E(Y)\\=E(XY)-E(mY)-E(X)E(Y)+mE(Y)=Cov(X,Y)\\ or~Cov(X-m,Y)=Cov(X,Y)-Cov(m,Y)=Cov(X,Y)$

공분산을 분산의 제곱근들로 나눈 것! 이 교수님은 일반적인 정의와 다르게 공분산을 정규화해서 해석함. 정규화해서 해석하면 단위가 없기 때문에 편함

상관의 성질

$-1\le Corr(X,Y)\le1$
- 상관의 성질 증명 X,Y가 정규화 되어 있다고 가정하자. 만약 되어 있지 않다면 정규화 시켜준다 그래도 어차피 상관의 정의에 따라 값은 똑같다. $Corr(X,Y)=\rho\\ Var(X+Y)=V(X)+V(Y)+2Cov(X,Y)\ge 0\\ Var(X-Y)=V(X)+V(Y)-2Cov(X,Y)\ge 0\\ Cov(X,Y)=Corr(X,Y)\\so ,-1\le\rho\le1$
- 독립과 상관의 관계 X,Y가 독립이면 비상관이다. 그리고 이건 공분산이 0임을 의미한다. 비상관이라는 말의 정의는 공분산이 0이라는 뜻이다. 그러나 이 명제의 역은 거짓이다. 즉, 공분산이 0이라고해서 두 확률변수가 독립이라고 할 수 없다. 반례) X = Z , Y=Z^2인 경우, 공분산은 0이지만 독립이 아님.
연습문제 1. 다항분포의 공분산 구하기

X ~ Multinomial ( n, p) , n 종류에 분류, X1 = 1번째로 분류된 개수

X=X1+X2+X3...X_n

V(X1+X2)=V(X1)+V(X2)+2Cov(X1,X2)

V(X1)=np1q1, V(X1+X2)=n(p1+p2)( 1-p1-p2)

X1+X2를 p1+p2인 사건으로 묶음
연습문제 2. 이항분포의 분산 구하기

X~ Bin(n,p)

X= X_1 + X_2 +...+X_n

X_1 = 첫 번째 시행이 성공 하면 1

Var(X_1)=E(X_1^2)-E(X_1)^2=p-p^2=pq (베르누이의 분산)

Sum _(k=1,..,n) Var(Xk)=npq
연습문제 3 . 초기하분포의 분산 구하기

X ~ HyperGeo(w,b,n)

n개를 고르는데 w만큼 흰색공이 있고 b만큼 검은 공이 있음.

X=X_1+X_2+...+X_n

X_k : k번째 고르는게 w이면 1.

이 문제에선 대칭성이 핵심임

Var(X_1) = Var(X_2) : 대칭성, X_1이 w일 확률이나 X_2가 w일 확률은 같음.

Var(X)=nVar(X_1)+2 nC2 cov(X_1,X_2)

Cov(X_1,X_2) = E(X_1,X_2)-E(X_1)E(X_2)

E(X_1)=E(X_2)=w/w+b

E(X_1,X_2 ) X_1,X_2는 베르누이분포임. 첫 두 공이 W일 확률을 따르는 따라서 기댓값은 p

MostlyFor

이전 포스트

21강 - 공분산과 상관계수

확률론

20강 - 다항분포 및 코시분포

0개의 댓글

관련 채용 정보