단일표본 t검정

코딩다시시작·2024년 10월 15일

p-value python t검정 빅데이터분석기사 퇴근후딴짓

빅데이터분석

목록 보기

4/19

이론

t 검정

t-검정

두 집단의 평균을 비교하거나
하나의 집단의 평균을 특정 값과 비교하여 유의미한 차이가 있는지 확인
표본의 크기가 작거나, 모집단의 분산을 모를 때 사용

t-검정의 유형

1. 단일 표본 t-검정 (One-Sample t-test)

한 집단의 평균이 특정 값과 유의미하게 다른지를 확인할 때 사용

2. 독립 표본 t-검정 (Independent Two-Sample t-test)

두 독립적인 집단의 평균이 유의미하게 다른지 비교할 때 사용

3. 대응 표본 t-검정 (Paired t-test)

동일한 집단에서 두 시점 간의 차이를 검정할 때 사용

이 중 우리는 단일 표본 t-검정에 대해 알아볼 것이다.

t-검정 통계량

x : 표본의 평균 (sample mean)
μ: 가설에서 설정한 모평균 (population mean)
s: 표본의 표준편차 (sample standard deviation)
n: 표본의 크기 (sample size)

t- 값이 클수록 두 평균의 차이가 큼을 얘기함.

귀무가설

귀무가설 정의

귀무가설은 주로 차이가 없다거나 특별한 변화가 없다는 내용의 가설
즉, 어떤 새로운 현상이나 차이를 발견하지 못한다는 가정
통계적 검정에서는 보통 이 귀무가설을 검정하고, 데이터 분석 결과에 따라 귀무가설을 기각하거나 기각하지 못하는지를 결정 함

귀무가설 검정의 흐름

귀무가설을 설정:
데이터를 분석하기 전에, 우리는 먼저 귀무가설 설정
귀무가설은 보통 "차이가 없다" 또는 "특별한 변화가 없다"는 내용으로 설정
대립가설을 설정:
대립가설: 귀무가설이 틀렸을 경우에 대비한 반대되는 가설
대립가설은 보통 "차이가 있다" 또는 "특별한 변화가 있다"는 가정
데이터 분석 및 검정:
데이터를 분석하고, 이를 바탕으로 귀무가설을 기각할 수 있을지 판단
검정 결과 해석:

귀무가설을 기각:
데이터가 귀무가설과 일치하지 않을 경우, 귀무가설을 기각하고 대립가설을 채택
귀무가설을 기각하지 않음: 데이터가
귀무가설과 크게 다르지 않다면, 귀무가설을 유지.
하지만 이는 귀무가설이 참임을 확신하는 것이 아니라, 단지 이를 기각할 충분한 증거가 없다는 의미.

p-value(유의확률)

귀무가설을 기각할 수 있는지 판단할 때 사용하는 지표
p-value는 주어진 데이터가 귀무가설이 참일 때 관측된 통계치와 같거나 더 극단적인 결과가 나올 확률을 의미

p-value가 작을수록, 귀무가설 기각 가능성 높음
p-value는 통계적 유의성을 평가하는 기준, 보통(0.05)와 비교

p-value 해석

p-value < 유의수준(alpha):

귀무가설을 기각
관측된 데이터가 귀무가설 하에서 발생할 확률이 매우 적음, 데이터를 통해 귀무가설을 기각하고 대립가설 채택

p-value ≥ 유의수준(alpha):

귀무가설을 기각하지 않음
데이터가 귀무가설과 일치한다 보고, 귀무가설을 유지

문제풀기

문제

문제: 다음은 22명의 학생들이 국어시험에서 받은 점수이다. 학생들의 평균이 75보다 크다고 할 수 있는가

귀무가설(H0): 모평균은 mu와 같다. (μ = mu), 학생들의 평균은 75이다
대립가설(H1): 모평균은 mu보다 크다. (μ > mu), 학생들의 평균은 75보다 크다
가정:
모집단은 정규분포를 따른다.
표본의 크기가 충분히 크다.

검정통계량, p-value, 검정결과를 출력하시오

모듈 불러오기

from scipy.stats import ttest_1samp

ttest_1samp를 통해 t검정과 p-value를 구할 수 있는 모듈을 불러온다.

데이터

scores = [75, 80, 68, 72, 77, 82, 81, 79, 70, 74, 76, 78, 81, 73, 81, 78, 75, 72, 74, 79, 78, 79]

모평균 가설검정

mu = 75 # 검정할 모평균
alpha = 0.05 # 유의 수준

검정할 모평균과 유의 수준을 정한다.

t-test를 사용하여 가설 검정

t_statistic, p_value = ttest_1samp(scores, mu, alternative='greater')

앞서 불러온 모듈을 통해 t-검정과 p-value를 구한다.
alternative = 'greater'인 이유는 대립 가설에서 더 크다고 가정했기 때문이다.

결과 출력

print("t-statistic:", t_statistic)
print("p-value:", p_value)

귀무가설 확인

if p_value < alpha:
    print("귀무가설을 기각합니다. 모평균은 75보다 큽니다.")
else:
    print("귀무가설을 채택합니다. 모평균은 75보다 크지 않습니다.")

p-value가 0.5보다 작아 귀무가설은 기각됨.

출처 https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr

코딩다시시작

gpt로 다시 배우는 개발

이전 포스트

컬럼 replace, 조건, 최대값

다음 포스트