Python Statistics 기초 02_06

하나·2024년 5월 16일

Python Statistics

KDT 빅데이터

목록 보기

7/7

가설검정에 대해 이론적으로 학습하고 실제 코드로 구현하여 코드를 통해 가설검정을 실시한 날.

가설검정

1) 연속형 데이터

변수들간의 관계 확인: 회귀분석/상관분석
변수들간의 차이 확인
- one-samle t-test(표본의 평균이 모집단 대표할 수 있는지 검정)
- two-sample t-test(두 표본의 평균이 차이가 있는지 검정)
- 등분산성 검정

2) 불연속성의 범주형 데이터: 두 변수들의 관계 확인 -> 카이제곱검정

용어정리

귀무가설: 통계학에서 버릴 것을 가정하는 가설
대립가설: 귀무가설과 반대되는 가설
유의수준: 통계적 가설검정에서 사용되는 기준값.
유의확률: 귀무가설이 맞다고 가정할 때 표본으로부터 관측된 데이터가 관축될 확률
신뢰구간: 모평균이 어느 범위 안에 있는지를 확률적으로 보여주는 방법

one-sample t-test

from scipy.stats import ttest_1samp
import scipy.stats as stats 

# 가설설정
null_hypothesis_mean = 

# one-sample t-test 수행
t_statistic, p_value = stats.ttest_1samp(, null_hypothesis_mean)

사용하여 one-sample t-test 수행하였다. 이 때, 자유도는 n-1로 산정되었다.

two-sample t-test

# two-sample t-test 수행
t_statistic, p_value = stats.ttest_ind(S['A'], S['B'])

two-sample t-test는 one-sample과 다르게 가설을 설정하지 않고 두 변수간 차이를 비교하여 이루어졌다. 자유도도 n1+n2-2로 설정되었다.

카이제곱 검정

from scipy.stats import chi2_contingency

사용하여 두 변수간 관계를 비교하였다.

여러 가설검증 방식을 배우며 데이터의 유형(연속형/범주형)을 구분하는 것이 데이터 분석에서 중요하다는 것에 대해 알게 되었고, 실제 데이터를 접할 때 이것이 어떤 유형인지 빠르게 파악할 수 있도록 하는 것이 중요하다는 생각이 들었다.

현재에서의 회고) 아직도 연속형/범주형을 구분하는 것을 헷갈려한다. 과정을 지나오며 여러 데이터를 보았는데 아직도 명확히 구분이 어려운 것을 보면 의식적으로라도 데이터의 유형을 파악하려는 노력이 필요하다는 것을 느낀다.

하나

Start with hello world:)

이전 포스트