공분산(covariance) 과 상관계수(Coefficient of Correlation)

Surf in Data·2022년 4월 7일
0
post-custom-banner

공분산은 두 변수 간에 양의 상관관계가 있는지, 음의 상관관계가 있는지를 알려준다.

COV(X,Y)COV(X, Y) = i=0n(xixˉ)(yiyˉ)n1\displaystyle\frac{\sum_{i=0}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n-1}

이제 그래프를 통하여 공분산은 무엇인지 또 왜저러한 수식으로 표현되는지 알아보도록 하겠다.

xx = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
yy = [3, 5, 7, 9, 12, 11, 13, 18, 20, 29]

다음과 같은 값을 표로 그려 보면 다음과 같다.

이때 x,yx, y의 평균을 구해서 해당 평균으로 영역을 나누면 다음과 같다.

그래프를 보게되면 x와 y의 평균을 기준으로 4개의 구역이 생기게 된다.
xˉ\bar{x}를 기준으로 오른쪽은 (xixˉ)(x_i - \bar{x}) 값이 양수가 되고 왼쪽은 음수가된다.
yˉ\bar{y}를 기준으로 위쪽은 (yiyˉ)(y_i - \bar{y}) 값이 양수가 되고 아래쪽은 음수가된다.
따라서 (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y}) 을 통해 양수가 되는 구역과 음수가 되는 구역으로 나뉠수 있게 된다.

파란색이 칠해져있는 영역은 (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y})가 양수가 되는 영역이고 빨간색이 칠해져있는 영역은 (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y})가 음수가 되는 영역이다.

다시 공분산의 식을 살펴보겠다.

COV(X,Y)COV(X, Y) = i=0n(xixˉ)(yiyˉ)n1\displaystyle\frac{\sum_{i=0}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n-1}

즉 공분산은 (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y})를 모두 더한후 평군을 낸 값으로 공분산이 양수라면 두 변수는 양의 상관관계를 가지는것이고 음수라면 양의 상관관계를 가지는 것이다.

하지만 공분산은 특이값에 영향을 많이 받고 두 변수가 관계를 가지는 방향성만 말해주지 강도의 크기는 말해주지 않는다.

상관계수(Coefficient of Correlation)

상관계수는 공분산의 단점을 커버한 것이라고 생각하면된다. 공분산은 값이 양수냐 음수냐 이 2가지 부분으로만 해석할 수 있지만 👍상관계수는 값의 크기로도 해석할 수 있다.

상관계수(r)=Cov(x,y)sxsy=sxysxsy상관계수(r) = \displaystyle\frac{Cov(x, y)}{s_xs_y} = \frac{s_{xy}}{s_xs_y}
1r1-1 \leq r \leq 1

식을 보게되면 상관계수는 두 변수 x,yx, y 간의 공분산 Cov(x,y)Cov(x, y)을 각각 xx의 표준편차와 yy의 표준편차로 나눈 식이다.
상관 계수로 두 변수간의 해석은 다음과 같이 할 수 있다.

상관계수가 0이다. -> 두 변수는 선형 관계를 가지고 있지 않다.
상관계수가 양수이다. -> 두 변수는 선형적으로 양의 상관관계를 가지고 있다.
상관계수가 음수이다. -> 두 변수는 선형적으로 음의 상관관계를 가지고 있다.

그렇다면 상관계수가 양수일때 0.5 과 0.9는 어떤 차이가 있을까?
출처:https://www.mathsisfun.com/data/images/correlation-examples.svg

상관계수가 1일때는 perfect positive correlation 으로 완전한 양의 선형 관계를 가지고 있다는 것이고 상관계수가 0.5일때는 low positive correlation 으로 양의 선형 관계를가지긴 하지만 직선으로 부터 어느정도 퍼져있는것을 확인할 수 있다.
즉, 상관계수의 크기두 변수사이에 얼마나 강한 상관관계를 가지고 있는냐를 알수있다.

     r\left| r \right| > 0.8      강한 상관관계
0.5<r\left| r \right|< 0.8      중간정도의 상관관계
     r\left| r \right|<0.5      약한 상관관계

profile
study blog
post-custom-banner

0개의 댓글