
*이미지 출처 : 전소현튜터님💕
👩 사업 : 이번 제품의 가격이 지난번 가격보다 수익성이 좋을까용?
🤶 분석 : select 가격 from 매출테이블... 넹,, 살펴보고 말씀드릴게여..
3) 프로세스 : 가설 수립 → 실험 설계 → 데이터 수립 → 추론 및 결론의 도출제한된 환경에서의 관찰을 통해 확보된 사실을 바탕으로 제한된 결론을 내리고, 확률적 판단으로 제한된 결론을 내려 진실에 가까운 값 도출
⚠️ 비즈니스 마케팅시 필수!!!!!!!
⚠️ 다양한 통계 개념을 바탕으로 실험 진행

✅즉, 최소 투자로 최대 이익을 창출하고자 하는 것
- A/B 테스트는 이렇게 TEST 그룹과 CONTROL 그룹으로 나누어 진행한다.
- 근데 꼭 2개 그룹으로 나눌 필요 없음.

💡유의수준은 신뢰수준의 반대 개념이다.
✅ 유의수준 : 귀무가설(버릴 가설)이 맞을 때 오류허용 기준(확률)
IF α로 표시하고 95%의 신뢰도를 기준으로 한다면 (1−0.95)인 0.05값이 유의수준 값이다.
유의수준은 신뢰수준의 반대 개념. 즉, 오류가 나타날 확률이다. 보통 0.05를 사용한다.
확률값이므로, 역시 0부터 1 사이의 값을 가집니다.
우리는 유의수준을 0.05로 설정하겠습니다. (= 95% 신뢰도로 기준을 정한 것!)

유의수준 정하고, 실험도 했다! 그럼 결과 해석은?!
ex) 주사위를 던졌을 때 나오는 숫자를 확률변수 X라고 가정했을 때,
각 X에 대한 확률 P(X)를 구해라
📌 확률변수 X는 1, 2, 3, 4, 5, 6이다.
📌 주사위 값이 1~6 중 어떤 수가 나올지 모르기 때문에 '확률변수'라고 한다.
📌 각 X에 대한 확률은 1/6이다.

🎯 목표 : 대립가설 채택! = 가 작아야한다! = < 유의수준
- < 0.05 = 우연히 일어났을 가능성이 낮다 = 인과관계 ⭕!!
- > 0.05 = 우연히 일어났을 가능성이 높다 = 인과관계 ❌!!
IF 중심극한정리를 통해, 모집단이 큰 경우 표본평균이 정규분포를 따르게 된다고 가정한다.
- 정규분포의 그래프 아래쪽이 확률값이다.
- 유의수준을 설정하고, 를 도출해서 의미를 해석해야한다.
🤬 NO!!
😆 Python의 Library를 사용하면 돼!!
import pandas as pd # 라이브러리 호출 import numpy as np import scipy.stats as stats # 과학 계산용 파이썬 라이브러리 from PIL import Image df = pd.read_csv("users1.csv") #t-test # 가설 설정 # 귀무가설: 남성과 여성의 구매금액에 차이가 없을 것이다 # 대립가설: 남성과 여성의 구매금액에 차이가 있을 것이다 # 실제 데이터 비교 df.groupby(['Gender'])['Purchase Amount (USD)'].mean().reset_index() # 데이터 분리 # mask method : 원하는 데이터 뽑아서 데이터프레임에 합치는거. mask=(df['Gender']=='Male') mask1 = (df['Gender']=='Female') m_df = df[mask] f_df = df[mask1] # 결제금액 컬럼만 가져오기 m_df=m_df[['Purchase Amount (USD)']] f_df=f_df[['Purchase Amount (USD)']] # 차이가 있는 것으로 보여짐 # 유의수준은 통상적으로 많이 쓰이는 0.05 로 정함 # scipy 라이브러리를 이용해 t-score 와 pvalue 를 확인할 수 있습니다. # t-test 는 표본의 평균(차이 분석)을 알고자 할 때 사용되며, 모집단의 분산을 알 수 없는 경우 주로 사용됩니다. t, pvalue=stats.ttest_ind(m_df, f_df) # tscore 는 그룹 간 얼마나 차이가 있는지에 대한 지표 # tscore 가 크면 그룹 간 차이가 큼을 의미합니다. # p-value 는 우연에 의해 나타날 확률에 대한 지표입니다. # p-value가 0.05 보다 크다 = 우연히 일어났을 가능성이 높다 = 인과관계가 없다고 추정 # 여기서 p-value 값은 0.05 보다 크므로, 인과관계가 없다고 추정할 수 있습니다. # 대립가설 기각 t, pvalue #카이제곱검정 # 가설 설정 # 귀무가설: 성별과 구매Size 에는 관련성이 없을 것이다 # 대립가설: 성별과 구매Size 에는 관련성이 있을 것이다 # 실제 데이터 비교 df.groupby(['Gender','Size'])['Customer ID'].count().reset_index() # pandas 라이브러리의 crosstab 함수를 통해, 두 범주형 자료의 빈도표를 만들어 주겠습니다. result = pd.crosstab(df['Gender'], df['Size']) # 카이제곱 검정을 stat 함수를 통해 구현 # chi2_contingency를 통해, 카이제곱통계량, p-value를 출력할 수 있습니다. stats.chi2_contingency(observed=result) # 각 값들을 별도로 보기 # 카이제곱 검정 통계량, pvalue, 자유도를 확인할 수 있습니다. stats.chi2_contingency(observed=result)[0] # p-value 는 우연에 의해 나타날 확률에 대한 지표입니다. # p-value가 0.05 보다 크다 = 우연히 일어났을 가능성이 높다 = 인과관계가 없다고 추정 # 여기서 p-value 값은 0.05 보다 크므로, 인과관계가 없다고 추정할 수 있습니다. # 대립가설 기각 stats.chi2_contingency(observed=result)[1] # 자유도와 유의수준을 통해 귀무가설 기각 여부를 판단하기도 합니다. # 자유도란, 굉장히 복잡한 개념이므로,,, (변수1 그룹의 수-1)*(변수2 그룹의 수-1) 가 되겠습니다. # 1*3 = 3 이 도출되었습니다. stats.chi2_contingency(observed=result)[2]