# 라이브러리 호출
import pandas as pd
import numpy as np
# scipy: 과학 계산용 파이썬 라이브러리
import scipy.stats as stats
from PIL import Image # 주피터 노트북에 이미지 삽입
df = pd.read_csv("statistics.csv")
df
# 가설 설정 후 실제 데이터 비교
df.groupby(['Gender'])['Purchase Amount (USD)'].mean().reset_index()
★ 데이터 분석가는 가설 세운 결과가 통계적으로 유의미하다고 숫자로 나왔더라도 "실제 데이터프레임 내용"을 꼭 확인해야 함!
→ 통계적으로 유의미하다고 나왔어도 100% 정답이라 말하지 않고 반반이어야 함
: "통계적으로 의미는 있지만… (데이터 직접 뜯어보기)"
★ 데이터가 어떻게 생겼는지 눈으로 확인하는 건 필수!
→ 실제 데이터프레임이 어떻게 생겼는지 groupby해서 평균 확인
# 데이터 분리
# mask method
mask=(df['Gender']=='Male')
mask1 = (df['Gender']=='Female')
m_df = df[mask]
f_df = df[mask1]
m_df
# 결제금액 컬럼만 가져오기
m_df=m_df[['Purchase Amount (USD)']]
f_df=f_df[['Purchase Amount (USD)']]
f_df
→ [[]]
: 데이터프레임 형식으로 가져옴
cf. []
: Series(array) 형식으로 가져옴
🡆 위와 같은 형태에서 []
이 데이터프레임을 슬라이싱 하는 역할이라고 볼 수도 있어요
t, pvalue=stats.ttest_ind(f_df, m_df)
t, pvalue
[실행 결과]
(array([0.87691521]), array([0.38058674]))
Q. 평균 구매금액에 차이가 없다는 게 두 집단의 구매 금액이 비슷하다는 건가요?
A. 비슷하다보다는 "연관이 없다"로 생각해 주세요.(연관이 없다, 차이가 없다)
Q. '한쪽 성별이 더 크다고도, 작다고도 할 수 없다' 이렇게 봐도 될까요?
A. 연관이 없으니까 그렇게 판단해도 되긴 하지만 '성별과 결제 금액은 관계가 없다'가 정확한 표현입니다!
# 가설 설정 후 실제 데이터 비교
df.groupby(['Gender','Size'])['Customer ID'].count().reset_index()
result = pd.crosstab(df['Gender'], df['Size'])
result
stats.chi2_contingency(observed=result)
→ 실행 결과:
Chi2ContingencyResult(statistic=6.615107840598039, pvalue=0.08523181331915772, dof=3, expected_freq=array([[ 336.96, 561.6 , 212.16, 137.28], [ 716.04, 1193.4 , 450.84, 291.72]]))
# 각 값들을 별도로 보기
# 카이제곱 검정 통계량, pvalue, 자유도를 확인할 수 있음
stats.chi2_contingency(observed=result)[0]
stats.chi2_contingency(observed=result)[1]
# 실행 결과:
# 0.08523181331915772
stats.chi2_contingency(observed=result)[2]
# 출력 결과:
# 3
→ 이렇게까지는 잘 하지 않습니다… p-value 로 판단합니다.
Q. 카이제곱 분포에서 연관이 없다라는 게 두 그룹 간 분산의 차이에는 유의미한 발견이 되지 않는다? 요런건가요?
A. 네
구분 | 상세 |
---|---|
분석 기법 | 기초 통계분석 ← DONE |
상관분석← 4회차 | |
회귀분석← 4회차 | |
분류분석← 6회차 | |
군집분석← 6회차 | |
RFM 분석← 6회차 | |
분석 방법론 | A/B TEST ← DONE |
통계이론 | 기초통계이론(평균, 분산, 표준편차) ← DONE |
정규분포와 중심극한정리 ← DONE | |
신뢰구간과 유의수준 ← DONE | |
가설 설정 ← DONE | |
통계적 유의성 검정 ← DONE | |
통계적 가설 검정 ← DONE |