📈 상관관계
- 데이터 분석에 있어서 상관관계를 조사하는것은 빼놓을 수 없는 절차중 하나이다.
- X가 큰값을 가질 수록 Y도 큰값을 가지거나, X가 작은값을 가질때 Y도 점점 작은값을 가진다면 이를(X와Y는) 양의 상관관계를 가진다고 할 수 있다.
- 반대로 X가 큰값을 가질 수록 Y가 작은값을가지거나, 그 반대인 경우는 음의 상관관계를 갖는다고 한다.
📈 용어 정리
- 상관계수(correlation coefficient) : 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량( 이해가 안되면 바로 밑에 상관관계와 상관계수를 읽으면서보면 이해가 된다.)
- 상관행렬(correlation matrix) : 행과 열이 변수들을 의미하는 표를 말하며, 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미한다.(파이썬의 히트맵같은 느낌)
- 산점도(scatterplot) : x축과 y축이 서로 다른 두 개의 변수를 나타내는 도표
📈 상관관계와 상관계수
- 상관관계를 나타내는 상관계수는 힘과 방향을 의미한다.
- 먼저 상관계수는 -1 부터 1사이 이다.
- 상관계수가 -1 이면 완벽한 음의 상관관계를 가지는 것이다.
- 상관계수가 0 이면 아무런 관계가 없는 것이다.
- 상관계수가 +1 이면 완벽한 양의 상관관계를 가지는 것이다.
- +와 -는 방향이며, 힘은 상관계수의 크기 이다.
- 상관계수의 크기 절대값이 1에 가까워질 수록 센것이며, 0에 가까울 수록 약한것이다.
💡 힘이 세다는 것은 무엇일까??
- 산점도 그래프(scatterplot)을 그려봤을때 데이터 들이 서로 가깝게 모여있으면 힘이 센것이고
각각 멀리 떨어져있으면 상관관계가 약하기 때문에 0에 가깝다고 할 수 있다.
- 추가로, 데이터 들이 모여있는 점들의 모여있는정도가 상관관계인것이지 점이 모여있는것들의 각도는 상관관계랑 관련이없다.
💡 상관 관계 != 인과 관계
- 관계는 두 변수가 서로 관계가 있는지, 없는지에 대한 것이다.
- 관계는 원인과 결과를 가지는 변수의 결과성을 의미한다, 즉 한변수가 원인이고, 다른변수가 결과이다.
💼 피어슨의 상관계수
- 피어슨 상관계수를 계산하려면 변수 1과 변수2 각각의 평균으로부터의 편차들을 서로 곱한 값들의 평균을 각 변수의 표준편차의 곱으로 나눠준다.
- n이 아닌 n-1로 나누어 주는것을 기억하자
💼 주의사항
- 만약에 변수들이 선형적인 관계를 갖지 않을 경우 상관계수는 더 이상 유용한 지표가 아니다.
📈 상관관계
- seaborn의 heatmap을 이용하여 상관관게를 시각화 할 수 있다.
- 평균과 표준편차와 같이, 상관계수는 데이터의 특잇값에 민감하다. 이러한 클래식한 상관계수를 대체할 수 있는 로버스트한 방법이 패키지로 존재하는데 사이킷런의 모듈 sklearn.covariacne 이다. 하지만 이것이 완전이 이상치에 대응된다는 뜻은아니다.