공분산

NK590·2023년 10월 3일
0

공분산(Covariance)

두 확률변수 X,YX, Y가 주어졌을 때, 두 변수 사이에 어떤 상관관계가 있는지 - 즉, 한 변수가 변화할 때 다른 변수는 어떤 변화 양상이 있는지 - 알아보기 위해 공분산(Covariance)을 사용한다. 공분산의 정의는 두 변수의 편차를 곱한 기대값으로 정의된다. 수식으로 나타내면 다음과 같다.

Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XYXE[Y]YE[X]+E[X]E[Y]]=E[XY]E[X]E[Y]E[Y]E[X]+E[X]E[Y]=E[XY]E[X]E[Y]\begin{aligned} Cov(X, Y) &= E[(X - E[X])(Y - E[Y])]\\ &= E[XY - XE[Y] - YE[X] + E[X]E[Y]]\\ &= E[XY] - E[X]E[Y] - E[Y]E[X] + E[X]E[Y]\\ &= E[XY] - E[X]E[Y] \end{aligned}

정의에서 유도되는 공분산의 성질은 다음과 같다.

  • Cov(X,Y)=Cov(Y,X)Cov(X, Y) = Cov(Y, X)
  • 상수 kk에 대해, Cov(X,k)=0Cov(X, k) = 0
  • Cov(X,X)=Var(X)0Cov(X, X) = Var(X) \geq 0
  • 상수 kk에 대해, Cov(kX1+X2,Y)=kCov(X1,Y)+Cov(X2,Y)Cov(kX_1 + X_2, Y) = kCov(X_1, Y) + Cov(X_2, Y)
  • 확률변수 X,YX, Y가 서로 독립이라면, Cov(X,Y)=0(E[XY]=E[X]E[Y])Cov(X, Y) = 0 \quad(\because E[XY] = E[X]E[Y])
  • Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)

일반적으로, 공분산이 0보다 클수록 두 확률변수 X,YX, Y는 양의 상관관계를 가지고, 0보다 작을수록 음의 상관관계를 가지고, 0에 가까울수록 두 확률변수는 양도 음도 아닌 관계에 있다고 할 수 있다.

주의할 점은, 공분산이 0이라고 해서 두 확률변수 사이에 상관관계가 아예 존재하지 않는다고는 말할 수 없다.


공분산의 한계

공분산은 두 확률변수 X,YX, Y에 대한 상관관계를 말해주지만, 각각의 확률변수의 스케일이 달라지게 되면 당연히 공분산의 값도 달라지게 된다. 즉, 이런 경우에는 공분산의 부호는 유의미하지만 그 값 자체는 특별히 큰 의미를 가지고 있지 않다고 할 수 있다. 이 점을 반영해서, 다음과 같이 공분산을 정규화시킨 피어슨 상관 계수(Pearson Correlation Coefficient, PCC) Corr(X,Y)Corr(X, Y)를 정의할 수 있다.

Corr(X,Y)=Cov(X,Y)σXσYCorr(X, Y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}

여기서 σX,σY\sigma_X, \sigma_Y는 각각 X,YX, Y의 표준편차이다.

PCC는 정규화된 공분산답게, Corr(X,Y)1|Corr(X, Y)| \leq 1을 만족한다. 단, 어디까지나 이 상관계수는 두 확률변수 사이의 '선형적인' 관계의 강도만 측정하기 때문에, 실제 두 변수 사이의 분포 관계를 명확하게 나타내지는 않는다. 즉, 같은 PCC 값을 가지더라도 매우 상이한 분포관계가 나타날 수 있으므로 PCC값만을 맹신하는 것은 위험하다.

profile
AI 엔지니어 (진)

0개의 댓글