공분산(Covariance)
두 확률변수 X,Y가 주어졌을 때, 두 변수 사이에 어떤 상관관계가 있는지 - 즉, 한 변수가 변화할 때 다른 변수는 어떤 변화 양상이 있는지 - 알아보기 위해 공분산(Covariance)을 사용한다. 공분산의 정의는 두 변수의 편차를 곱한 기대값으로 정의된다. 수식으로 나타내면 다음과 같다.
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY−XE[Y]−YE[X]+E[X]E[Y]]=E[XY]−E[X]E[Y]−E[Y]E[X]+E[X]E[Y]=E[XY]−E[X]E[Y]
정의에서 유도되는 공분산의 성질은 다음과 같다.
- Cov(X,Y)=Cov(Y,X)
- 상수 k에 대해, Cov(X,k)=0
- Cov(X,X)=Var(X)≥0
- 상수 k에 대해, Cov(kX1+X2,Y)=kCov(X1,Y)+Cov(X2,Y)
- 확률변수 X,Y가 서로 독립이라면, Cov(X,Y)=0(∵E[XY]=E[X]E[Y])
- Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
일반적으로, 공분산이 0보다 클수록 두 확률변수 X,Y는 양의 상관관계를 가지고, 0보다 작을수록 음의 상관관계를 가지고, 0에 가까울수록 두 확률변수는 양도 음도 아닌 관계에 있다고 할 수 있다.
주의할 점은, 공분산이 0이라고 해서 두 확률변수 사이에 상관관계가 아예 존재하지 않는다고는 말할 수 없다.
공분산의 한계
공분산은 두 확률변수 X,Y에 대한 상관관계를 말해주지만, 각각의 확률변수의 스케일이 달라지게 되면 당연히 공분산의 값도 달라지게 된다. 즉, 이런 경우에는 공분산의 부호는 유의미하지만 그 값 자체는 특별히 큰 의미를 가지고 있지 않다고 할 수 있다. 이 점을 반영해서, 다음과 같이 공분산을 정규화시킨 피어슨 상관 계수(Pearson Correlation Coefficient, PCC) Corr(X,Y)를 정의할 수 있다.
Corr(X,Y)=σXσYCov(X,Y)
여기서 σX,σY는 각각 X,Y의 표준편차이다.
PCC는 정규화된 공분산답게, ∣Corr(X,Y)∣≤1을 만족한다. 단, 어디까지나 이 상관계수는 두 확률변수 사이의 '선형적인' 관계의 강도만 측정하기 때문에, 실제 두 변수 사이의 분포 관계를 명확하게 나타내지는 않는다. 즉, 같은 PCC 값을 가지더라도 매우 상이한 분포관계가 나타날 수 있으므로 PCC값만을 맹신하는 것은 위험하다.