다변수 확률변수 간의 상관 관계를 숫자로 나타낸 것이 공분산(covariance)과 상관계수(correlation coefficient 이다.)
표본 공분산의 경우 식으로 표현하면 다음과 같다.
표본공분산 평균값으로부터 얼마나 떨어져 있는지를 나타냄.
공분산 = 평균값 위치와 표본 위치를 연결하는 사각형의 면적을 사용한다.
만약 사각형이 ( 데이터 ) 1사분면 3사분면에 있는 경우에는 양수가 되고,
데이터가 2,4 사분면에 있는 경우에는 음수가 된다.
즉 공분산의 부호는 , 데이터가 반대의 부호를 가지는지, 혹은 같은 부호를 가지는지를 의미한다.
표본 공분산 = 데이터 분포의 크기와 방향성을 알수 있음.
하지만 분산이 데이터 분포의 크기를 알 수 있기 때문에 방향성을 분리하여 보기 위해
표본 상관계수를 사용한다.
표본 상관계수를 식으로 나타내면
다음과 같다.
해석하자면 공분산 를 각각의 표본표준편차인 값으로 나누어 정규화(normalize)하여 정의한다.
해당 식과 다르게 정의한 상관계수도 있기 때문에 다른 종류의 상관계수와 비교하여
말하는 경우에는 피어슨(Pearson) 상관계수라고 하기도 한다.
두 확률 변수의 공분산의 경우
으로 나타낼 수 있다.
상관계수의 경우
확률변수의 상관계수는 다음과 같은 성질을 가진다.
−1≤≤1
ρ=1 : 완전선형 상관관계
ρ=0 : 무상관 (독립과는 다름) / 선형 관계가 아님
ρ=−1 : 완전선형 반상관관계