Data Science - 상관 분석

cosmosJ·2024년 2월 14일

Data Science 데이터 사이언스

데이터 분석

목록 보기

18/26

상관 분석

상관관계는 변수 간의 상호 관련성을 의미하며, 관계성을 정도는 통계적 또는 시각적 방법으로 파악 가능하다.

산점도 : 시각적으로 상관관계를 파악하는 방법
상관계수 : 통계적으로 상관관계를 파악하는 방법 (수치적, 객관적)
- 선형관계를 측정하는 Pearson 상관계수
- 비선형 순위 상관관계를 측정하는 Spearman 상관계수

산점도

산점도는 2 변수를 가로와 세로축으로 하여 2변수 간의 관계를 점으로 그리는 방법이다.

두 연속성 데이터의 관계 파악에 용이하다.
- 선형적인지 비선형적인지, 관계가 없는지 등
- 특정 관계를 갖는 데이터는 한눈에 파악 가능
극단치, 이상치 파악이 가능하다.
한 변수 값이 증가할 때, 다른 변수도 증가하면 양의 상관관계를 가진다고 한다.
한 변수가 증가할 때, 다른 변수는 감소하면 음의 상관관계를 가진다고 표현한다.

상관계수

산점도는 대략적인 데이터의 구성을 통해 인사이트를 제공한다면, 상관계수는 좀 더 객관적이고, 수치적으로 변수 간의 관계를 나타낸다.

➡️ 두 변수 간의 함께 변화하는 경향을 객관적으로 측정할 수 있는 척도

이러한 상관계수는 2가지 종류가 있다.

Pearson 상관계수
- 변수 간의 선형 관계의 강도를 측정
Spearman 상관계수
- 변수 간의 비선형 순위 기반 상관관계의 강도를 측정

2 종류의 상관계수 모두 [-1,1]의 범위를 가지며,

-1에 가까울 수록 음의 상관관계
1에 가까울수록 양의 상관관계
0에 가까울수록 상관관계 없음

의 의미를 가진다.

Pearson 상관계수

산점도로는 관계의 강도를 파악하기는 어렵다. 따라서 pearson 상관계수를 통해 객관화하여 나타낼 수 있다.

그 수식은 다음과 같다.

$r = \frac{cov(X, Y)}{\sqrt{var(X)}\sqrt{var(Y)}} = \frac{E(X - E(X))E(Y - E(Y)}{\sqrt{var(X)}\sqrt{var(Y)}}$

➡️ 수식을 간단히 설명하면, 분자의 공분산(두 변수의 관계의 양을 표현) 값을 분모의 각 변수의 표준편차(데이터의 흩어짐 정도)로 나누어 표현하는 것이 Pearson 상관계수 이다.

표준 편차와 분포를 사용하므로, 관계의 선형성, 정규성, 등분산성에 대한 가정이 있어야 통계적 의미를 갖춤.

상관계수 $r$ 은 -1 ~ 1의 값을 가짐.
- $r=0$ : 두 변수간 상관관계 X
- $r = 1$ : 완벽한 우상향 직선의 관계 → 양의 상관관계
- $r = -1$ : 완벽한 우하향 직선의 관계 → 음의 상관관계

비선형 상관계수

변수가 선형성과 정규성에 문제가 있다면,

Pearson 상관계수보다 비선형 상관계수를 산출
데이터 변환을 통해 선형성을 확보

와 같은 방안의 고려가 필요하다.

여기서는 대표적인 비선형 상관관계를 나타내는 Spearman 상관계수에 대해 알아본다.

Spearman 상관계수

Spearman 상관계수는 순위 파악에 매우 능하며, monotonic(단조) 관계만 보장된다면, 분산과 선형성에 상관없이 사용가능한 상관계수이다.

ex.
X가 증가할 때, Y도 증가하는 경우이나, Y는 기하 급수적으로 증가 (즉, 비선형적이게 증가)하는 case의 경우, Pearson 상관계수보다 SpearMan 상관계수가 더 효율적
Spearman 상관계수는 monotonic(단조) 증가/하락(계속해서 증가만 하거나, 계속해서 하락만 하는 경우)에 관한 비선형관계도 포함하여 변수간의 상관관계를 잘 표현 가능하다는 강점이 있다.

데이터 변환

데이터를 변환하면, 비선형 데이터를 선형으로 변형이 가능한 경우가 있다.

대표적으로 지수 분포를 가지는 데이터의 경우, log 변환을 하면, 선형성을 가지게 된다.

각 데이터에 알맞는 선형 변환 방법 혹은 함수를 고려하여, 최대한 선형성을 확보하는 것이 차후 데이터 분석 과정에서 훨씬 유연하고, 유익하게 사용 가능해진다.

상관 분석

상관 분석은 두 변수 간 선형 관계를 개량적으로 분석하는 기법이다.

➡️ 즉, 상관계수를 추정하는 단계가 된다.

ex 피어슨 상관분석의 예
- 귀무 가설 : $H_0 = 0$ (선형관계 없음)
- 대립 가설 : $H_1 = 0$ (선형관계 있음)
- 검정 통계랑 : $t = \frac{r\sqrt{n - 2}}{\sqrt{1 - r^2}}$ (가설 검증은 t 검정을 이용한다)
  - 자유도는 n - 2인 t 분포를 따름
[기본가정]
- 선형성 : 두 변수의 관계는 선형적
- 정규성 : 집단별 종속변수는 정규분포를 만족
- 등분산성 : 집단별 종속변수 분포의 분산은 동일
위의 가정이 충족되지 않는다면, 구해진 통계적 해석은 의미를 가지지 못한다.

상관분석 시 유의할 점

상관성이 있다는 것이 인과성이 있음을 나타내지는 않는다.

ex. 아이스크림 판매량과 상어에게 습격당한 횟수는 양의 상관관계를 가진다. 그러나, 아이스크림을 많이 먹는 것이 상어에게 많이 습격당할 이유가 되지는 않는다. (인과관계 X)

위와 같은 사례는 Confounding factor의 영향에 의함이다. 위의 예제에서 Confounding factor는 여름이다.

상관 분석 순서

Data 특성 파악 & 가설 설정
- 종속변수/독립변수 : 모두 '등비'여야함.
- 귀무가설 : 변수간 선형관계X
- 대립가설 : 변수간 선형관계0
산점도를 통한 시각화 및 가정 검토
- 선형관계가 아니면 분석의 의미를 찾기 힘듬
- 변수 별 정규성, 등분산성 체크
목적에 맞는 분석 수행
- 위의 결과를 토대로 최종 분석 방법 선택
결과 해석 및 최종 결론 도출
- P-value 기반 상관관계 변수 선택
- 관계의 정도 확인

실습 코드

github - 실습 코드

cosmosJ

백엔드, Data Science, AI 분야 학습 내용을 정리하는 블로그입니다.

Data Science - 상관 분석

데이터 분석

상관 분석

산점도

상관계수

Pearson 상관계수

비선형 상관계수

Spearman 상관계수

데이터 변환

상관 분석

상관분석 시 유의할 점

상관 분석 순서

실습 코드

Data Science - 가설의 의의와 검정

Data Science - 회귀 분석

0개의 댓글