공분산과 상관계수

황민규·2023년 6월 30일
0

통계/수학

목록 보기
6/8

다변수 확률변수 간의 상관 관계를 숫자로 나타낸 것이 공분산(covariance)과 상관계수(correlation coefficient 이다.)


표본 공분산 ( sample covariance )

표본 공분산의 경우 식으로 표현하면 다음과 같다.

sxy=1Ni=1N(xix)(yiy)s_{xy} = \frac{1}{N}\sum_{i=1}^N(x_{i} - \overline{x})(y_{i} - \overline{y})

표본공분산 평균값으로부터 얼마나 떨어져 있는지를 나타냄.

공분산 = 평균값 위치와 표본 위치를 연결하는 사각형의 면적을 사용한다.

만약 사각형이 ( 데이터 ) 1사분면 3사분면에 있는 경우에는 양수가 되고,
데이터가 2,4 사분면에 있는 경우에는 음수가 된다.

즉 공분산의 부호는 XX, YY데이터가 반대의 부호를 가지는지, 혹은 같은 부호를 가지는지를 의미한다.




표본상관계수 (Sample correlation coefficient)

표본 공분산 = 데이터 분포의 크기와 방향성을 알수 있음.

하지만 분산이 데이터 분포의 크기를 알 수 있기 때문에 방향성을 분리하여 보기 위해

표본 상관계수를 사용한다.

표본 상관계수를 식으로 나타내면

rxy=sxysx2 . sy2r_{xy} = \frac{s_{xy}}{\sqrt{s_{x}^2 \ . \ s_{y}^2}}

다음과 같다.

해석하자면 공분산 sxys_{xy}를 각각의 표본표준편차인 sx,sys_{x}, s_{y} 값으로 나누어 정규화(normalize)하여 정의한다.

해당 식과 다르게 정의한 상관계수도 있기 때문에 다른 종류의 상관계수와 비교하여
말하는 경우에는 피어슨(Pearson) 상관계수라고 하기도 한다.




확률변수의 공분산과 상관계수

두 확률 변수의 공분산의 경우

Cov[X,Y]=E[ (X  E(X) ) (Y  E(Y) ) ]Cov[X,Y] = E[ \ (X \ -\ E(X) \ ) \ (Y \ -\ E(Y)\ )\ ]

으로 나타낼 수 있다.

상관계수의 경우

ρ[X,Y] =Cov[X,Y]Var[X]Var[Y]\rho[X,Y] \ = \frac{Cov[X,Y]}{\sqrt{Var[X] \cdot Var[Y]}}

확률변수의 상관계수는 다음과 같은 성질을 가진다.

−1≤ρ\rho≤1

ρ=1 : 완전선형 상관관계

ρ=0 : 무상관 (독립과는 다름) / 선형 관계가 아님

ρ=−1 : 완전선형 반상관관계

profile
자반이랑 행복하게 살기

0개의 댓글