공분산의 특성을 이해하고 활용할 수 있다.
-
공분산(covariance)
-
상관(correlation)
-
다항분포(multinomial distribution)
-
이항분포(binomial distribution)
-
초기하분포(hypergeometric distribution)
-
공분산(Covariance)의 정의 및 성질
Cov(X,Y)=E((X−E(X))(Y−E(Y))=E(XY)−E(X)E(Y)
공분산의 의미 :
공분산은 X가 평균보다 클 때 Y도 대체로 평균보다 크다면 양수가 나오게 설계하고 X가 평균보다 작을 때 Y도 평균보다 작다면 양수가 나오게 설계함.
-
정의에 의해 X,Y가 독립이라면 공분산은 0임.
공분산이 중요한 이유 : 분산의 합을 다룰 수 있기 때문
공분산의 성질
1) Cov(X,X)=Var(X)2) Cov(X,Y)=Cov(Y,X)3) Cov(X,c)=04) Cov(X,cY)=cCov(X,Y)5) Cov(X,Y+Z)=Cov(X,Y)+Cov(X,Z)6) Var(X1+X2)=Cov(X1+X2,X1+X2)=Cov(X1,X1)+2Cov(X1,X2)+Cov(X2,X2)=V(X1)+V(X2),if,X,Y indep
4번과 5번은 정의식에 대입하면 바로 나오는데 꽤나 유용한 성질임. 그리고 X를 고정했을 때 Y는 선형성을 띄는 것 같이 보이는데 이걸 이중 선형성이라고함.
-
상관(Correlation)
상관의 정의 :
Corr(X,Y)=SD(X)SD(Y)Cov(X,Y)=Cov(SD(X)X−E(X),SD(Y)Y−E(Y))becauseCov(X−E(X),Y)=E((X−m)Y)−E(X−m)E(Y)=E(XY)−E(mY)−E(X)E(Y)+mE(Y)=Cov(X,Y)or Cov(X−m,Y)=Cov(X,Y)−Cov(m,Y)=Cov(X,Y)
공분산을 분산의 제곱근들로 나눈 것! 이 교수님은 일반적인 정의와 다르게 공분산을 정규화해서 해석함. 정규화해서 해석하면 단위가 없기 때문에 편함
상관의 성질
−1≤Corr(X,Y)≤1
- 상관의 성질 증명 X,Y가 정규화 되어 있다고 가정하자. 만약 되어 있지 않다면 정규화 시켜준다 그래도 어차피 상관의 정의에 따라 값은 똑같다.
Corr(X,Y)=ρVar(X+Y)=V(X)+V(Y)+2Cov(X,Y)≥0Var(X−Y)=V(X)+V(Y)−2Cov(X,Y)≥0Cov(X,Y)=Corr(X,Y)so,−1≤ρ≤1
- 독립과 상관의 관계 X,Y가 독립이면 비상관이다. 그리고 이건 공분산이 0임을 의미한다. 비상관이라는 말의 정의는 공분산이 0이라는 뜻이다. 그러나 이 명제의 역은 거짓이다. 즉, 공분산이 0이라고해서 두 확률변수가 독립이라고 할 수 없다. 반례) X = Z , Y=Z^2인 경우, 공분산은 0이지만 독립이 아님.
-
연습문제 1. 다항분포의 공분산 구하기
X ~ Multinomial ( n, p) , n 종류에 분류, X1 = 1번째로 분류된 개수
X=X1+X2+X3...X_n
V(X1+X2)=V(X1)+V(X2)+2Cov(X1,X2)
V(X1)=np1q1, V(X1+X2)=n(p1+p2)( 1-p1-p2)
X1+X2를 p1+p2인 사건으로 묶음
-
연습문제 2. 이항분포의 분산 구하기
X~ Bin(n,p)
X= X_1 + X_2 +...+X_n
X_1 = 첫 번째 시행이 성공 하면 1
Var(X_1)=E(X_1^2)-E(X_1)^2=p-p^2=pq (베르누이의 분산)
Sum _(k=1,..,n) Var(Xk)=npq
-
연습문제 3 . 초기하분포의 분산 구하기
X ~ HyperGeo(w,b,n)
n개를 고르는데 w만큼 흰색공이 있고 b만큼 검은 공이 있음.
X=X_1+X_2+...+X_n
X_k : k번째 고르는게 w이면 1.
이 문제에선 대칭성이 핵심임
Var(X_1) = Var(X_2) : 대칭성, X_1이 w일 확률이나 X_2가 w일 확률은 같음.
Var(X)=nVar(X_1)+2 nC2 cov(X_1,X_2)
Cov(X_1,X_2) = E(X_1,X_2)-E(X_1)E(X_2)
E(X_1)=E(X_2)=w/w+b
E(X_1,X_2 ) X_1,X_2는 베르누이분포임. 첫 두 공이 W일 확률을 따르는 따라서 기댓값은 p