상관 분석

Kyojun Jin·2024년 4월 5일
0

Data Science

목록 보기
5/14

상관분석

연속형 두 변수간의 직선적(선형적) 관계 정도를 검정하는 통계 분석 방법.

산점도

두 개의 숫자형 데이터를 직교 좌표계에 표시하여 두 변수 간의 관계를 나타냄.

산점도를 통해 확인할 수 있는 것
1. 두 변수 간에 선형 관계가 있는가
2. 두 변수 간에 함수 관계(직선 혹은 곡선)가 있는가
3. 이상점이 있는가
4. 몇 개의 그룹이 있는가

주의: 인과 관계는 알 수 없다.

r 은 상관계수이다. 절대값이 1에 가까울 수록 상관관계가 강하다.

피어슨 상관계수

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{ \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) }{ \sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}

x의 편차 y의 편차의 합을 x의 표준편차 y의 표준편차로 나눈 값이다.

x의 편차 * y의 편차의 합을 n-1로 나눈 것을 공분산이라고 한다.
두 변수의 경향성을 나타낸다. 표준편차의 곱으로 나누는 이유는 x와 y의 scale이 다를 수도 있으므로 이 차이를 제거하기 위함이다.

예시) 대입시험 점수와 대학 졸업 학점 간의 상관관계

스피어만 상관계수

서열척도를 가지고 있는 두 변수의 순위를 비교한다.
식은 피어슨이랑 같은데 실제 데이터가 들어가는 대신 데이터의 등수가 들어간다.

예시) 고입시험 등수와 대입시험 등수의 관계

켄달 상관계수

예시) 두 심사위원이 부여한 점수의 관계

주의점

상관관계 \ne 인과관계이다.
상관계수 절대값이 우연히 1에 가까울 수도 있다.
상관계수 절대값이 0에 가까울 수도 있다. (선형적이지 않을 수 있다.)
시계열 자료, 독립적이지 않은 자료에서 상관관계를 쓰면 안 된다.

0개의 댓글

관련 채용 정보