상관계수

HyeonKi Jo·2022년 10월 26일
0

LSTM

목록 보기
1/2

출처

https://mindscale.kr/course/basic-stat-python/6/

상관계수

  • 상관계수 (Correlation coefficient) : 두 변수가 함께 변하는 정도를 -1 ~ 1 범위의 수로 나타낸 것

피어슨 상관계수

  • 칼 피어슨(Karl Pearson)이 개발
  • 일반적으로 상관계수라고 말함

사용 예

import numpy as np
np.corrcoef(x, y) # x와 y의 상관계수를 반환

np.corrcoef(x, y)[0, 1] # 두 변수의 상관계수만 확인

상관계수의 해석

부호

  • +인 경우 : 두 변수가 비례
  • -인 경우 : 두 변수가 반비례

크기

  • 값이 0일 때, 두 변수가 독립
  • 반대로 값이 1에 가까울수록 관계가 높음

주의할 점

  • 상관계수는 선형적인 관계를 측정하기 때문에, 두 변수가 비선형적으로 변한다면 잘 측정하지 못함
  • w = z**2의 관계지만, 상관걔수는 0으로 나타난다.

spearman 상관계수

  • 상관분석시에 서열척도를 사용한 변수가 포함되어있거나,
  • 두 변수간의 관례가 비선형적일 때 구하는 상관계수
import scipy.stats

scipy.stats.spearmanr(x, y).correlation

kendall의 tau

  • spearman과 마찬가지로, 비선형적이거나 서열변수일 떄 사용,
  • spearman보다 믿을만 하다고 알려짐
scipy.stats.kendalltau(x, y).correlation

유의할 점

실시 전

  • 두 변수의 관계사 선형적(직선)인지 비선형적인지 확인
    • 주로 산점도를 그려 확인한다.
    • 두 변수의 관계가 곡선이라면 spearman이나 kendall을 사용해야 한다.

      (출처 : https://umbum.dev/1006)

실시 중

  • 두 변수의 상관관계는 인과간계를 증명하지 않는다.
    • 상관관계가 있다고 반드시 인과관계가 존재하지 않는다.
  • 데이터 내에 이상치가 있을 때, 존재하지 않는 상관관계가 나오거나, 또는 아예 안나오는 경우가 발생할 수 있다.
profile
Talking Potato

0개의 댓글