평균 (mean)
=
데이터들의 합 / 데이터의 개수
두 변수의 연관성.
피어슨 상관계수
가 가장 많이 사용. -1과 1 사이의 값으로 나타내어지며, 구하는 식은 다음과 같다. (확률과 통계 시간에 배웠다!)
산점도와 엮어 생각하면 다음과 같다.
순서대로 관련 없음, 양의 상관, 확실한 양, 음의 상관, 확실한 음.
상관계수는 pandas 의 corr() 메서드를 통해 구현할 수 있다.
%matplotlib inline
import pandas as pd
df = pd.read_csv('data/exam.csv')
df.corr()
그러나 이렇게 하면 DataFrame
의 형태로만 출력되어 결국 Seaborn의 heatmap 메서드를 이용하게 된다.
%matplotlib inline
import pandas as pd
import seaborn as sns
df = pd.read_csv('data/exam.csv')
sns.heatmap(df.corr())
결과는 다음과 같다!
색이 밝을수록 상관계수가 높다는 것인데, annot = True
옵션을 통해 숫자도 표기가 가능하다.
sns.heatmap(df.corr(), annot = True)