[요약] 상관관계 정리

magnussapiens·2022년 10월 25일

통계학대백과사전

목록 보기

2/2

책 < 통계학 대백과 사전> 을 읽고 정리한 내용입니다.
(추가 참고자료1 )

피어슨 상관계수는 -1 ~ 1 사이의 값을 가지게 되며, 양수이면 '양의 상관관계', 음수이면 '음의 상관관계' 를 의미합니다.
데이터의 산점도를 그렸을 때, 피어슨 상관계수가 낮은 경우에도 데이터 간의 분포에서 인사이트를 얻을 수 있습니다. 그룹별로 유저를 분리하는 '층화' 진행할 시, 전체로는 낮은 스코어이나, 그룹별 의미를 찾을 수 있기 때문입니다.

순서는 값이 큰 순서대로 부여하게 됩니다.
수식에 의해 계산할 수 있는 순위 상관계수 역시 -1 ~ 1 사이의 값을 갖게 되며, 1에 가까울 수록 x, y의 순위가 같고 -1 에 가까울 수록 역순이 됩니다.
순위를 매길 때, 데이터가 같아 '같은 순위'를 부여해야 하는 경우가 있습니다. 그럴 경우 두 값의 중간값을 부여하게 됩니다. (2, 3위가 같을 경우 2.5, 2.5를 부여)
'같은 순위' 인 경우 분모도 조정하게 되어, 최종적으로는 아래와 같은 수식을 볼 수 있습니다.

(Xi - Xj)(Yi-Yj)> 0 이라면 aij = 1
(Xi - Xj)(Yi-Yj)< 0 이라면 aij = -1

시계열 데이터도 평균이나 상관관계를 이용하여 데이터 분석이 가능합니다.
- 예를 들어, 30개월 간의 커피 판매량과 30개월 월 평균 커피 판매량이 있다고 칩시다.
- 현재 데이터와 1개월 전의 데이터를 조합하여 2변량 데이터로 만들고, 3개월 월 평균 데이터를 이용하여 계산한 공분산을 '시간차가 30인 y30' 인 자기 공분산이라고 부를 수 있습니다.
시간차 k인 자기 공분산(auto covariance)
y1 ~ yt 인 시계열 데이터 라고 한다면, 아래와 같이 표현할 수 있습니다.
- y_mean= (1 / T) ( y1 + ... + yt) 라고 함
- rk = Cov[yi, yi-k] = 1 / T ( sigma(yi-y_mean)(y_i-k - y_mean)
시간차 k인 자기 상관계수
- pk = rk / r0
- pk를 k의 함수로 나타낼 떄 p(k)를 자기 상관함수
- p(k) 의 그래프를 상관도표 correlogram 이라고 부르기도 합니다.