공분산

NK590·2023년 10월 3일

공분산(Covariance)

두 확률변수 $X, Y$ 가 주어졌을 때, 두 변수 사이에 어떤 상관관계가 있는지 - 즉, 한 변수가 변화할 때 다른 변수는 어떤 변화 양상이 있는지 - 알아보기 위해 공분산(Covariance)을 사용한다. 공분산의 정의는 두 변수의 편차를 곱한 기대값으로 정의된다. 수식으로 나타내면 다음과 같다.

\begin{aligned} Cov(X, Y) &= E[(X - E[X])(Y - E[Y])]\\ &= E[XY - XE[Y] - YE[X] + E[X]E[Y]]\\ &= E[XY] - E[X]E[Y] - E[Y]E[X] + E[X]E[Y]\\ &= E[XY] - E[X]E[Y] \end{aligned}

정의에서 유도되는 공분산의 성질은 다음과 같다.

$Cov(X, Y) = Cov(Y, X)$
상수 $k$ 에 대해, $Cov(X, k) = 0$
$Cov(X, X) = Var(X) \geq 0$
상수 $k$ 에 대해, $Cov(kX_1 + X_2, Y) = kCov(X_1, Y) + Cov(X_2, Y)$
확률변수 $X, Y$ 가 서로 독립이라면, $Cov(X, Y) = 0 \quad(\because E[XY] = E[X]E[Y])$
$Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)$

일반적으로, 공분산이 0보다 클수록 두 확률변수 $X, Y$ 는 양의 상관관계를 가지고, 0보다 작을수록 음의 상관관계를 가지고, 0에 가까울수록 두 확률변수는 양도 음도 아닌 관계에 있다고 할 수 있다.

주의할 점은, 공분산이 0이라고 해서 두 확률변수 사이에 상관관계가 아예 존재하지 않는다고는 말할 수 없다.

공분산의 한계

공분산은 두 확률변수 $X, Y$ 에 대한 상관관계를 말해주지만, 각각의 확률변수의 스케일이 달라지게 되면 당연히 공분산의 값도 달라지게 된다. 즉, 이런 경우에는 공분산의 부호는 유의미하지만 그 값 자체는 특별히 큰 의미를 가지고 있지 않다고 할 수 있다. 이 점을 반영해서, 다음과 같이 공분산을 정규화시킨 피어슨 상관 계수(Pearson Correlation Coefficient, PCC) $Corr(X, Y)$ 를 정의할 수 있다.

Corr(X, Y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}

여기서 $\sigma_X, \sigma_Y$ 는 각각 $X, Y$ 의 표준편차이다.

PCC는 정규화된 공분산답게, $|Corr(X, Y)| \leq 1$ 을 만족한다. 단, 어디까지나 이 상관계수는 두 확률변수 사이의 '선형적인' 관계의 강도만 측정하기 때문에, 실제 두 변수 사이의 분포 관계를 명확하게 나타내지는 않는다. 즉, 같은 PCC 값을 가지더라도 매우 상이한 분포관계가 나타날 수 있으므로 PCC값만을 맹신하는 것은 위험하다.

NK590

AI 엔지니어 (진)

이전 포스트

행렬식

다음 포스트

공분산

공분산(Covariance)

공분산의 한계

행렬식

공분산 행렬

0개의 댓글