두 숫자형 변수의 관계를 나타내는 그래프
먼저 직선의 관계를 살펴봐라!
숫자 vs 숫자를 비교할때 중요한 관점 - 직선
matplotlib
seaborn
강한 관계와 약한 관계
얼마나 직선에 모여있는가
x와 y의 관계를 얼마나 직선으로 잘 설명할 수 있는가
산점도 한번에 그리기
상관계수는 r로 표현됨
-1~1 사이의 값
상관계수끼리 비교 가능
-1,1에 가까울 수록 강한 상관관계를 나타냄
경험에 의한 대략적인 기준 (절대적인 기준이 아님)
상관계수의 유의성 검정
- 상관계수의 크기로 판단할 수 있지만, 상관분석을 통해 검정(test)할 수 있음
import scipy.status as spst
spst.pearsonr(변수,변수)
피어슨 상관분석
상관계수 한번에 구하는 방법 - df.corr()
상관계수의 한계
어떻게 사용하는지에 초점
그래프로 관계를 파악하는데 한계가 있기 때문에 관계를 수치한 값(상관계수)가 유의미한지 판단하는 숫자
p-value<0.05이면, 두 변수간에 관계가 있다(상관계수가 의미가 있다)
p-value≥0.05이면, 두 변수간에 관계가 없다 (상관계수가 의미가 없다)
분산 (Var,Variance), 표준편차(SD,Standard Deviation)
표본의 크기가 ㅡㄹ수록 정규본포 모양이 중심에 가까워지는 좁은 형태가 됨