05. 공분산행렬과 다변량 정규분포와 타원

maro·2024년 1월 17일
0

"프로그래머를 위한 확률과 통계" 책과 스터디 내용을 기반으로 작성하였습니다.


5.1 공분산과 상관계수

1) 공분산

  • 두 분포가 모두 변화하는 양

  • 확률변수 X, Y의 기댓값 : uu, vv

  • X와 Y의 공분산

    Cov[X,Y]E[(Xu)(Yv)]Cov[X, Y] \equiv E[(X-u)(Y-v)]

  • 판단

    • Cov[X,Y]Cov[X, Y] > 0 : 비례 관계
    • Cov[X,Y]Cov[X, Y] < 0 : 반비례 관계
    • Cov[X,Y]Cov[X, Y] = 0 : 서로 영향 X
  • 성질

    • Cov[X,Y]=Cov[Y,X]Cov[X, Y] = Cov[Y, X]
    • Cov[X,X]=V[X]Cov[X, X] = V[X]
    • Cov[X+a,Y+b]=Cov[X,Y]Cov[X+a, Y+b] = Cov[X, Y]
      • X=X+aX' = X+a, Y=Y+bY' = Y +b
        -> uu' = uu + a -> Xa=X+a(u+a)X-a = X+a-(u+a)
    • Cov[aX,bY]=abCov[X,Y]Cov[aX, bY] = ab*Cov[X, Y]
    • X와 Y가 서로 독립 -> Cov[X,Y]=0Cov[X, Y] = 0

2) 상관관계

  • 상관계수는 -1에서 1까지의 값을 가집니다.
  • 1에 가까울수록 우상단에 가까워지고 -1에 가까워질수록 좌하단에 가까워집니다.
  • 각 독립변수의 관계가 독립적이면 상관계수는 0입니다.

3) 주의할 점

  • 공분산이나 상관계수를 무조건적으로 신뢰해서는 않됩니다.
  • 상관관계의 경우 직선의 관계가 나타나진 않지만 의미있을 수 있으며 두 변수의 관계가 의미없는 단순우연일 수도 있습니다.
  • 공분산의 경우에도 변수간 값 분포의 범위가 다르기 때문에 직접적인 비교는 피해야합니다.

5.2 공분산행렬

1) 공분산행렬

  • n개의 확률변수 간의 공분산을 n*n 표로 만든 것
  • 우하향의 대각 위치는 같은 변수들로 공분산이 시행되어 단일 공분산과 같은 값을 가집니다.

2) 벡터화

  • 벡터: 크기와 방향을 가지는 데이터
  • 확률 변수들을 하나의 열 벡터로 변환

3) 벡터&행렬의 연산과 기댓값

  • 열 벡터에 대해 상수, 상수 벡터가 더해지거나 빼지는 것은 기댓값에 큰 영향을 주지 못합니다.

  • 곱해지는 경우 공분산의 특성에 따라 처리됩니다.

    • 변하지 않는 상수(행렬)의 경우 바깥으로 빠져나올 수 있으나 벡터이기에 방향을 고려하여 선, 후가 바뀌면 안됩니다.
    • 변하는 경우 바깥으로 빠져 나오지 못합니다.
  • 기본 전제는 열 벡터의 길이가 상수 벡터의 길이가 같다는 가정입니다.

  • 독립성

    • X, Y, Z 분포의 독립성은 P(XnYnZ)==P(X)P(Y)(Z)P(XnYnZ) == P(X)*P(Y)*(Z)가 성립

0개의 댓글