t-test_1

김지윤·2023년 4월 20일

QQplot Ttest anderson bartlett kstest levene shapiro

Scipy

목록 보기

1/4

🛻 부산광역시_연도별 및 성별 _1인가구 인구추이

먼저, 위 데이터를 가지고 기본적인 연산을 수행해보자.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

np.set_printoptions(precision=5, suppress=True) #소수점 5자리까지만 표현되도록

filename = '성_및_연령별_1인가구__시군구_20230315141048.csv'
np_data = pd.read_csv(filename,encoding='cp949').to_numpy()
print(np_data)

#  [['부산광역시' '합계' 2015 164617 197132]
#   ['부산광역시' '합계' 2016 168035 204377]
#   ['부산광역시' '합계' 2017 176932 211967]
#   ['부산광역시' '합계' 2018 183579 220829]
#   ['부산광역시' '합계' 2019 191796 231431]
#   ['부산광역시' '합계' 2020 206311 248896]
#   ['부산광역시' '합계' 2021 222040 265322]]

np_data 에서 '부산광역시','합계' 제외 dtype 을 np.int64로 지정

sub_data = np_data[:,2:].astype(np.int64)
print(sub_data)

#  [[  2015 164617 197132]
#   [  2016 168035 204377]
#   [  2017 176932 211967]
#   [  2018 183579 220829]
#   [  2019 191796 231431]
#   [  2020 206311 248896]
#   [  2021 222040 265322]]

2015-2021년까지 남자/여자 1인 가구 평균치 & 편차

man_mean = np.mean(sub_data[:,1])
woman_mean = np.mean(sub_data[:,2])
print(man_mean)      # 187615.7142857143
print(woman_mean)    # 225707.7142857143

man_std = np_data[:,1] - man_mean
woman_std = np_data[:,2] - man_mean

print( man_std)
# [-22998.71429 -19580.71429 -10683.71429  -4036.71429   4180.28571
#   18695.28571  34424.28571]
print(woman_std)
#  [ 9516.28571 16761.28571 24351.28571 33213.28571 43815.28571 61280.28571
#   77706.28571]

2015-2021년까지 남/녀 1인가구 상관도

corr = np.corrcoef(sub_data[:,1],sub_data[:,2])
print(corr)

#  [[1.     0.9987]
#   [0.9987 1.    ]]

상관계수가 0.9987이므로 여자 1인가구수 증가 --> 남자 1인 가구수도 증가한다고 볼 수 있을 것이다.
.

2015-2021년 연도별 남/녀 1인가구 비율

year_sum = np.sum(sub_data[:,1:],axis=1)
print(year_sum)
# [361749 372412 388899 404408 423227 455207 487362]

man_per = sub_data[:,1] / year_sum
woman_per = sub_data[:,2] / year_sum 
print(man_per)     # [0.45506 0.45121 0.45496 0.45395 0.45318 0.45322 0.4556 ]
print(woman_per)   # [0.54494 0.54879 0.54504 0.54605 0.54682 0.54678 0.5444 ]

.
.
.
.

🛻 ttest

: 두 개 그룹의 평균값 비교
: stats.ttest_ind(a,b)

귀무가설 : 두 개 그룹의 평균값은 차이가 없다.
대립가설 : 두 개 그룹의 평균값은 차이가 있다.
유의수준 5% 일 때, p-value < 0.05 → 귀무가설 기각

from scipy import stats

print(sub_data)

#  [[  2015 164617 197132]
#   [  2016 168035 204377]
#   [  2017 176932 211967]
#   [  2018 183579 220829]
#   [  2019 191796 231431]
#   [  2020 206311 248896]
#   [  2021 222040 265322]]

man = sub_data[:,1]
woman = sub_data[:,2]

stats.ttest_ind(man, woman)

p-value = 0.0086 < 0.05 이므로, "귀무가설 기각"
» 즉, 두 집단의 평균의 차이는 통계적으로 유의하다고 볼 수 있다. < 0.05
.
.
.

단, t-test 를 수행하기 전, 2가지 조건을 확인해야한다.

⌨️ t-test의 조건

각 샘플의 모집단은 normal distribution을 따른다.
(표준정규분포 검정 : shapiro, anderson, kstest, q-qplot )
각 샘플의 모집단은 분산은 같다.
(등분산 검정 : barlet, levene )

⌨️ 표준정규분포 검정

1. shapiro 검정

귀무가설 : 샘플의 모집단은 정규분포를 따른다.

stats.shapiro(man)
stats.shapiro(woman)

man : p-value = 0.74499 > 0.05 이므로, "귀무가설 채택"
woman : p-value = 0.66956 > 0.05 이므로, "귀무가설 채택"

» 즉, man과 woman 샘플의 모집단은 정규분포를 따른다고 볼 수 있다.
.
.
2. anderson 검정

귀무가설 : 샘플의 모집단은 선택된 분포를 따른다.
anderson은 여러가지 분포 선택 가능
기본값은 normal distribution

stats.anderson(man)

.
.
3. kstest 검정
: goodness of fit (선택된 분포와 일치하는지 검정)

귀무가설 : 선택된 분포와 데이터가 일치함

stats.kstest(man, stats.norm.cdf)

p-value < 0.05 이므로, "귀무가설 기각"
.
.
4. Q-Q plot
stats.probplot
qqplot 은 분위수대조도로 불리며, 정규모집단 가정을 하는 방법 중 하나이며 수집 데이터를 표준정규분포의 분위수와 비교하여 그리는 그래프이다.

모집단이 정규성을 따른다면 , 직선의 형태 로 그려지게 된다.

_, axe  = plt.subplots()
stats.probplot(man,plot=axe)

⌨️ 등분산 검정
1. bartlett 검정

귀무가설 : 두 개 그룹의 분산은 같다. (등분산)

stats.bartlett(man, woman)

» p-value = 0.6949 > 0.05 이므로, "귀무가설 채택"
.
.
2. levene 검정

귀무가설 : 두개 그룹의 분산은 같다. (등분산)

stats.levene(man, woman)

» p-value = 0.6811 > 0.05 이므로, "귀무가설 채택"

김지윤

데이터 분석 / 데이터 사이언티스트 / AI 딥러닝

다음 포스트