휴가 낸거 복습하기..
우리는 일부분으로 전체를 추정하고자 한다!
표본으로부터 대립가설을 확인 -> 모집단에서도 맞을 것이라 주장
대립가설 : 매장지역(𝑥2)에 따라 수요량(𝑦)에 차이가 있다.
귀무가설 : 매장지역(𝑥2)에 따라 수요량(𝑦)에 차이가 없다.
표본 평균 -> 정규 분포를 따른다.
표본1 평균 - 표본2 평균 -> 정규 분포를 따른다
판단 기준 : p-value가 0.05 혹은 보수적인 기준으로 0.01를 사용
0.05 보다는 p-value가 작아야, 차이가 있다고 판단.
: 검정(차이가 있는지 없는지 확인) 하기 위한 차이 값
t 통계량
x^2(카이제곱) 통계량
f 통계량
이를 손쉽게 판단할 수 있도록 계산해 준 것이 p-value
#라이브러리 불러오기
import matplotlib.pyplot as plt
#plt.scatter(air['Temp'], air['Ozone'])
plt.scatter('Temp', 'Ozone', data = air)
plt.show()
# 라이브러리
import seaborn as sns
sns.scatterplot(x='Temp', y='Ozone', data = air)
plt.show()
시각화 : 한번에 산점도 그리기
- sns.pairplot(dataframe)
- 숫자형 변수들에 대한 산점도를 한꺼번에 그려줌
- 시간 많이 걸림
- 일일이 확인하기 어려움
눈으로 그래프를 살펴보며 관계를 파악하는 것은 어려움
-> 관계를 숫자로 계산해서 비교!
spst.pearsonr(df['x'],df['y'])
# 라이브러리
import scipy.stats as spst
# 상관계수와 p-value
spst.pearsonr(air['Temp'], air['Ozone'])
p-value
- 관계를 수치화한 값이 유의미한지 판단하는 숫자
- 판단 기준 (유의수준) -> 대립가설과 귀무가설에 따라 의미는 달라짐
- p-value < 0.05 : 두 변수 간에 관계가 있다. (상관관계가 있다고 판단)
- p-value >= 0.05 : 두 변수 간에 관계가 없다.