연속형 두 변수간의 직선적(선형적) 관계 정도를 검정하는 통계 분석 방법.
두 개의 숫자형 데이터를 직교 좌표계에 표시하여 두 변수 간의 관계를 나타냄.
산점도를 통해 확인할 수 있는 것
1. 두 변수 간에 선형 관계가 있는가
2. 두 변수 간에 함수 관계(직선 혹은 곡선)가 있는가
3. 이상점이 있는가
4. 몇 개의 그룹이 있는가
주의: 인과 관계는 알 수 없다.
r 은 상관계수이다. 절대값이 1에 가까울 수록 상관관계가 강하다.
x의 편차 y의 편차의 합을 x의 표준편차 y의 표준편차로 나눈 값이다.
x의 편차 * y의 편차의 합을 n-1로 나눈 것을 공분산이라고 한다.
두 변수의 경향성을 나타낸다. 표준편차의 곱으로 나누는 이유는 x와 y의 scale이 다를 수도 있으므로 이 차이를 제거하기 위함이다.
예시) 대입시험 점수와 대학 졸업 학점 간의 상관관계
서열척도를 가지고 있는 두 변수의 순위를 비교한다.
식은 피어슨이랑 같은데 실제 데이터가 들어가는 대신 데이터의 등수가 들어간다.
예시) 고입시험 등수와 대입시험 등수의 관계
예시) 두 심사위원이 부여한 점수의 관계
상관관계 인과관계이다.
상관계수 절대값이 우연히 1에 가까울 수도 있다.
상관계수 절대값이 0에 가까울 수도 있다. (선형적이지 않을 수 있다.)
시계열 자료, 독립적이지 않은 자료에서 상관관계를 쓰면 안 된다.