[Data Analysis] 이변량분석-범주->숫자

송아지·2024년 9월 27일

Data Analysis

목록 보기
7/10
  • 평균 비교
  • 범주의 갯수에 따라 비교 방법의 차이 존재

※ 들어가기 전

  • 귀무가설 : 사회적으로 통용되어 있는 개념, 기존 개념
  • 대립가설 : 내가 주장하고 싶은 개념

1. 시각화와 분산분석

  • sns.barplot

    • 자동으로 평균 비교
    • 신뢰구간
      • 자동으로 95% 신뢰구간 표시
      • 그래프 위 검은 막대가 신뢰구간
      • 신뢰구간이 좁을 수록 정확
      • 데이터가 많고, 편차가 적을수록 신뢰구간이 좁아짐(sn\frac{s}{\sqrt{n}})
    • 두 평균의 차이가 크고, 신뢰구간이 겹치지 않을 경우 대립가설이 맞다고 판단 가능
  • 분산분석

    • 범주형 x와 숫자형 y의 관걔를 검정하기 위한 도구
    • 평균을 비교하여 검정
    • T-test
      • 두 그룹간 평균의 차이가 존재하는가?
      • 범주의 수가 2개일 때 사용
      • t-통계량 : -2 보다 작거나 2보다 크면 범주형 값에 따라 차이가 존재한다고 판단
      • p-value : 0.05 보다 작으면 통계적 관계가 존재한다고 판단
    • anova
      • 전체 평균과 각 그룹 평균의 차이가 존재하는가?
      • 범주의 수가 3개 이상일 때 사용
      • 전체 그룹 간 분산과 그룹 내 분산을 비교
      • f-통계량 : 2 ~ 3 보다 크면 범주형 값에 따라 차이가 존재한다고 판단
      • p-value : 0.05 보다 작으면 통계적 관계가 존재한다고 판단

1-1. 두 집단

  • 대립가설 : 성별 여부에 따라 팁의 차이가 존재한다
sns.barplot(x="sex", y="tip", data=tips)
plt.grid()
plt.show()

  • 두 성별의 평균 차이가 얼마 나지 않으며, 신뢰구간도 겹치기에 대립가설 기각
  • 분산분석을 통하여 정확한 비교(T-test)
import scipy.stats as spst

temp = tips.loc[tips['sex'].notnull()] # 결측치 제거

female = temp.loc[temp['sex']=='Female', 'tip']
male = temp.loc[temp['sex']=='Male', 'tip']

spst.ttest_ind(male, female)
'''
TtestResult(statistic=1.387859705421269, pvalue=0.16645623503456755, df=242.0)
'''
# t-통계량이 2보다 작음 : 성별에 따른 팁의 차이는 존재하지 않음
# p-value가 0.05보다 큼 : 통계적 관계가 존재하지 않음

1-2. 세 집단 이상

  • 대립가설 : 요일에 따른 팁의 차이가 존재한다
sns.barplot(x="day", y="tip", data=tips)
plt.grid()
plt.show()

  • 요일에 따른 팁의 차이가 존재하는 지 정확한 판단이 힘듬
  • 분산분석을 통하여 정확한 비교(anova)
temp = tips.loc[tips['day'].notnull()]
# 그룹별 저장
sun = temp.loc[temp['day'] == 'Sun', 'tip']
sat = temp.loc[temp['day'] == 'Sat', 'tip']
thur = temp.loc[temp['day'] == 'Thur', 'tip']
fri = temp.loc[temp['day'] == 'Fri', 'tip']

spst.f_oneway(sun, sat, thur, fri)
'''
F_onewayResult(statistic=1.6723551980998697, pvalue=0.1735885553040592)
'''
# 요일에 따른 팁의 차이는 존재하지 않고, 통계적 관계도 맺지 않음

※ 만약

  • t-통계량이 10, p-value : 0.05 보다 큼
    -> 범주의 따른 타겟의 변화는 존재하나, 통계적 관계가 아닌 우연이라 볼 수 있음
profile
데이터 분석가&엔지니어를 희망하는 취준생

0개의 댓글