[Visualization] 통계 기본 상식

박경민·2023년 1월 19일
0

[DataScience]

목록 보기
4/16

01 평균 값

평균 (mean)
=
데이터들의 합 / 데이터의 개수


02 평균 값 계산하기


03 중간값

  • 2n 개 : n번쨰와 n+1번째 자료 합 / 2
  • 2n + 1 개 : 딱 중간 자료

04 평균값 vs 중간값

  • 중간값 : 이상치의 영향을 덜 받음
  • 평균값 : 중간값의 의미가 덜 한 경우 (높고 낮은 자료들이 많은데 중앙에 있다는 이유만으로 선택) 사용

05 중간값 계산하기


06 상관계수

두 변수의 연관성.

피어슨 상관계수 가 가장 많이 사용. -1과 1 사이의 값으로 나타내어지며, 구하는 식은 다음과 같다. (확률과 통계 시간에 배웠다!)

산점도와 엮어 생각하면 다음과 같다.

순서대로 관련 없음, 양의 상관, 확실한 양, 음의 상관, 확실한 음.


07 상관계수 퀴즈


08 상관계수 시각화

상관계수는 pandas 의 corr() 메서드를 통해 구현할 수 있다.

%matplotlib inline
import pandas as pd

df = pd.read_csv('data/exam.csv')

df.corr()

그러나 이렇게 하면 DataFrame 의 형태로만 출력되어 결국 Seaborn의 heatmap 메서드를 이용하게 된다.

%matplotlib inline
import pandas as pd
import seaborn as sns

df = pd.read_csv('data/exam.csv')

sns.heatmap(df.corr())

결과는 다음과 같다!

색이 밝을수록 상관계수가 높다는 것인데, annot = True 옵션을 통해 숫자도 표기가 가능하다.

sns.heatmap(df.corr(), annot = True)


profile
Mathematics, Algorithm, and IDEA for AI research🦖

0개의 댓글