[TIL] 빅분기 3영역 정리

ssook·2023년 12월 1일

내가 모르는 부분만 빅데이터분석기사 후다다닥

TIL

목록 보기

16/17

📍 검정 통계량

가설 검정의 대상이 되는 모수를 추론하기 위해 사용하는 표본통계량
귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산
귀무가설과 대립가설 중 하나를 결정하기 위해 사용되는 통계량
일반적으로 모평균과 모분산에 대한 검정통계량으로 표본평균과 표본분산을 사용함
검정통계량의 분포는 항상 귀무가설 하에서 정의된 모숫값에 의해 결정됨.

📍 가설 검정 기법

표본 1개의 평균 검정 : 단일표본 T-검정

정규성 검정 해야 함
단일 표본이므로 ttest_1sample


from scipy.stats import ttest_1sample

단일 표본에서 모평균에 대한 검정은 표본평균 T를 사용함.
검정하고자 하는 변수가 정규분포를 따라야 하므로 콜모고프 - 스노프 검정이나 샤피로 - 윌크를 사용한 정규성 검정이 선행되어야 함. 만일 정규성을 안 띠면 비모수적인 방법인 부호 검정 혹은 윌콕스 - 부호 순위 검정을 따로 써야 함.
p - value가 0.05보다 크면 귀무가설(원래 평균값) 채택하고, 대립가설(가설로 설정한 평균값)을 버림.

독립적인 표본 2개의 검정 : 독립표본 T-검정

정규성 검정, 등분산성 검정 해야 함
3가지 패키지를 쓴다.
1. from scipy.stats import Levene
- 등분산 검정을 위해 Levene 검정이 필요함.
- 등분산이 아니면 t-test 검정할 때 등분산성이 아니라고 파라미터를 바꿔줘야 함.
(equal_var = False)
2. from scipy.stats import ttest_ind : 독립이므로 키워드 ind가 들어감.
3. math : sqrt 쓰려고 넣는데, 사실 그냥 ** 0.5해도 충분...


from scipy.stats import Levene
from scipy.stats import ttest_ind

두 모집단으로부터 표본들을 독립적으로 추출하여, 이 두 표본들의 평균을 비교해 두 모집단의 유사성을 검정하는 방법임.
귀무가설은 두 모집단의 평균이 같다는 거고, 대립가설은 두 모집단의 평균이 다르다는 것

대응표본의 평균 차이 검정 : 쌍체표본 T-검정

실험 전/후 측정 값의 차이가 정규성을 따르고 있어야 함.
- 이 차이 값이 유의한지 T 검정을 해야 함.
둘 사이에 관계가 있으므로 ttest_rel. 키워드는 rel.

from scipy.stats import ttest_rel

해당 메소드의 주요 파라미터로 alternative가 있는데, 귀무가설과 대립가설 간의 방향성을 설정하는 파라미터임.
- 파라미터의 내용은 아래와 같음.
1. two-sided : 양측 검정
2. less : 귀무가설 내용이 작은 것일 때 (a는 b보다 작나?)
3. greater : 귀무가설 내용이 큰 것일 때 (b는 a보다 작나?)
각 실험단위를 동질적인 쌍으로 묶은 다음, 각 쌍에서 관측값의 차를 이용해 두 모평균의차에 대한 추론 문제를 다룰 수 있음.
- 실험 이전 집단과 실험 이후 집단이 같을 때 사용하는 검정으로 쌍체 비교, 대응비교라고 함.
표본 크기가 크면 검정통계량의 값은 표본정규분포를 따름.

단일표본 모분산 가설 검정 : 카이제곱 검정

다른 말로 적합도 검정이라고도 한다.
기대빈도 즉, expected리스트를 구해서 검정하는 방식.
사용하는 패키지는 카이제곱 진짜, 카이스퀘어 = chisquare


from scipy.stats import chisquare

모집단의 평균과 분산에 대한 정보가 없을 때 이에 대한 가설 검정을 하는 케이스
귀무가설은 설정한 가설의 표본과 분산이 다르다, 대립가설은 가설에 세팅한 저 두 값이 같다(맞다)

두 모분산 비에 대한 가설 검정 : 일원분산분석 검정

f_oneway를 사용함 : oneway가 키워드

from scipy.stats import f_oneway

두 정규 모집단이 있으나 이 두 모집단의 모평균과 모분산을 모를 때, 이 둘의 모분산 비에 대한 가설 검정 방법
귀무가설은 두 모분산의 비가 같다이고, 대립가설은 다르다.임.
이걸 하기 위해서는 그룹별로 나눠서 각각 저장해야 함.

적합도 검정 : 카이제곱 검정

적합도 검정
- 관측도수가 우리가 가정하는 이론상의 분포를 잘 따른다는 귀무가설을 검정하는 것
- 관측도수 : 실제 시험에서 단일 특성에 의해 분류된 각 범주의 관측 값을 의미
- 관측도수가 얼마나 이론상의 분포, 주어진 형태를 잘 따르는지 검정하는 가설 검정 기법
원래 값을 그룹별로 나눈 후, 각 그룹별로 그 기대하는 비율을 곱해주는 것이 키 포인트

사용하는 패키지는 카이제곱 진짜, 카이스퀘어 = chisquare


from scipy.stats import chisquare

위의 단일표본 모분산 가설 검정 방식과 동일. 다만 표본 갯수의 차이임.

독립성 검정 : 카이제곱 검정

사용하는 패키지는 chi2_contingency, contingency = 우연성이라는 의미임.
두 특성이 우연히 일치해서 독립적인건지, 아닌지를 의미.


from scipy.stats import chi2_contingency

독립성 검정
- 두 범주형 변수 또는 특성이 존재할 때 두 특성이 서로 독립인지,
다시 말해 한 특성이 다른 특성에 영향을 미치는지 여부에 대하여 알아보는 검정
- crosstab 사용하는 검정
- 귀무가설은 서로 독립적이라는 가정, 대립가설은 귀무가설이 사실이 아니라는 가정

개발자에서, IT Business 담당자로. BrSE 업무를 수행하고 있습니다.

이전 포스트

[TIL] 내가 잘 안 써서 모르는 파이썬 메소드 zip과 unzip 간단 정리

다음 포스트

빅분기해도 까먹은 나를 위한 Encoder들 간략 정리

0개의 댓글