21강 - 공분산과 상관계수

MostlyFor·2023년 1월 9일
0

확률론

목록 보기
20/20

해당 내용은 아래 강좌를 정리한 내용입니다.
https://www.edwith.org/ai152

학습목표

공분산의 특성을 이해하고 활용할 수 있다.

핵심 키워드

  • 공분산(covariance)

  • 상관(correlation)

  • 다항분포(multinomial distribution)

  • 이항분포(binomial distribution)

  • 초기하분포(hypergeometric distribution)

  • 공분산(Covariance)의 정의 및 성질

    Cov(X,Y)=E((XE(X))(YE(Y))=E(XY)E(X)E(Y)Cov(X,Y)=E((X-E(X))(Y-E(Y))\\=E(XY)-E(X)E(Y)

    공분산의 의미 :

    공분산은 X가 평균보다 클 때 Y도 대체로 평균보다 크다면 양수가 나오게 설계하고 X가 평균보다 작을 때 Y도 평균보다 작다면 양수가 나오게 설계함.

    • 정의에 의해 X,Y가 독립이라면 공분산은 0임.

      공분산이 중요한 이유 : 분산의 합을 다룰 수 있기 때문

      공분산의 성질

      1) Cov(X,X)=Var(X)2) Cov(X,Y)=Cov(Y,X)3) Cov(X,c)=04) Cov(X,cY)=cCov(X,Y)5) Cov(X,Y+Z)=Cov(X,Y)+Cov(X,Z)6) Var(X1+X2)=Cov(X1+X2,X1+X2)=Cov(X1,X1)+2Cov(X1,X2)+Cov(X2,X2)=V(X1)+V(X2),if,X,Y indep1)~Cov(X,X)=Var(X)\\ 2)~Cov(X,Y)=Cov(Y,X)\\ 3)~Cov(X,c)=0\\ 4)~Cov(X,cY)=cCov(X,Y)\\ 5)~Cov(X,Y+Z)=Cov(X,Y)+Cov(X,Z)\\ 6)~Var(X_1+X_2)\\ =Cov(X_1+X_2,X_1+X_2)=Cov(X_1,X_1)+2Cov(X_1,X_2)+Cov(X_2,X_2)\\ =V(X_1)+V(X_2), if, X,Y~ indep

      4번과 5번은 정의식에 대입하면 바로 나오는데 꽤나 유용한 성질임. 그리고 X를 고정했을 때 Y는 선형성을 띄는 것 같이 보이는데 이걸 이중 선형성이라고함.

  • 상관(Correlation)

    상관의 정의 :

    Corr(X,Y)=Cov(X,Y)SD(X)SD(Y)=Cov(XE(X)SD(X),YE(Y)SD(Y))becauseCov(XE(X),Y)=E((Xm)Y)E(Xm)E(Y)=E(XY)E(mY)E(X)E(Y)+mE(Y)=Cov(X,Y)or Cov(Xm,Y)=Cov(X,Y)Cov(m,Y)=Cov(X,Y)Corr(X,Y)=\frac{Cov(X,Y)}{SD(X)SD(Y)}=Cov(\frac{X-E(X)}{SD(X)},\frac{Y-E(Y)}{SD(Y)})\\ because \\Cov(X-E(X),Y)=E((X-m)Y)-E(X-m)E(Y)\\=E(XY)-E(mY)-E(X)E(Y)+mE(Y)=Cov(X,Y)\\ or~Cov(X-m,Y)=Cov(X,Y)-Cov(m,Y)=Cov(X,Y)

    공분산을 분산의 제곱근들로 나눈 것! 이 교수님은 일반적인 정의와 다르게 공분산을 정규화해서 해석함. 정규화해서 해석하면 단위가 없기 때문에 편함

    상관의 성질

    1Corr(X,Y)1-1\le Corr(X,Y)\le1
    • 상관의 성질 증명 X,Y가 정규화 되어 있다고 가정하자. 만약 되어 있지 않다면 정규화 시켜준다 그래도 어차피 상관의 정의에 따라 값은 똑같다.
      Corr(X,Y)=ρVar(X+Y)=V(X)+V(Y)+2Cov(X,Y)0Var(XY)=V(X)+V(Y)2Cov(X,Y)0Cov(X,Y)=Corr(X,Y)so,1ρ1Corr(X,Y)=\rho\\ Var(X+Y)=V(X)+V(Y)+2Cov(X,Y)\ge 0\\ Var(X-Y)=V(X)+V(Y)-2Cov(X,Y)\ge 0\\ Cov(X,Y)=Corr(X,Y)\\so ,-1\le\rho\le1
    • 독립과 상관의 관계 X,Y가 독립이면 비상관이다. 그리고 이건 공분산이 0임을 의미한다. 비상관이라는 말의 정의는 공분산이 0이라는 뜻이다. 그러나 이 명제의 역은 거짓이다. 즉, 공분산이 0이라고해서 두 확률변수가 독립이라고 할 수 없다. 반례) X = Z , Y=Z^2인 경우, 공분산은 0이지만 독립이 아님.
  • 연습문제 1. 다항분포의 공분산 구하기

    X ~ Multinomial ( n, p) , n 종류에 분류, X1 = 1번째로 분류된 개수

    X=X1+X2+X3...X_n

    V(X1+X2)=V(X1)+V(X2)+2Cov(X1,X2)

    V(X1)=np1q1, V(X1+X2)=n(p1+p2)( 1-p1-p2)

    X1+X2를 p1+p2인 사건으로 묶음

  • 연습문제 2. 이항분포의 분산 구하기

    X~ Bin(n,p)

    X= X_1 + X_2 +...+X_n

    X_1 = 첫 번째 시행이 성공 하면 1

    Var(X_1)=E(X_1^2)-E(X_1)^2=p-p^2=pq (베르누이의 분산)

    Sum _(k=1,..,n) Var(Xk)=npq

  • 연습문제 3 . 초기하분포의 분산 구하기

    X ~ HyperGeo(w,b,n)

    n개를 고르는데 w만큼 흰색공이 있고 b만큼 검은 공이 있음.

    X=X_1+X_2+...+X_n

    X_k : k번째 고르는게 w이면 1.

    이 문제에선 대칭성이 핵심임

    Var(X_1) = Var(X_2) : 대칭성, X_1이 w일 확률이나 X_2가 w일 확률은 같음.

    Var(X)=nVar(X_1)+2 nC2 cov(X_1,X_2)

    Cov(X_1,X_2) = E(X_1,X_2)-E(X_1)E(X_2)

    E(X_1)=E(X_2)=w/w+b

    E(X_1,X_2 ) X_1,X_2는 베르누이분포임. 첫 두 공이 W일 확률을 따르는 따라서 기댓값은 p

0개의 댓글