t 검정 & 다중 검정 & 자유도

정다영·2022년 8월 18일

데이터 과학을 위한 통계 통계학

데이터 과학을 위한 통계

목록 보기

15/23

3.5 t 검정

1. 용어 정리

검정통계량(test statistic): 관심의 차이 또는 효과에 대한 측정 지표
t 통계량(t-statistic): 평균과 같이 표준화된 형태의 일반적인 검정통계량
t 분포(t-distribution): 관측된 t 통계량을 비교할 수 있는, (귀무가설에서 파생된) 기준분포

2. 예제: t-test

코드

import scipy.stats as stats

res = stats.ttest_ind(session_times[session_times.Page == 'Page A'].Time,
                      session_times[session_times.Page == 'Page B'].Time,
                      equal_var = False)

print(f'p-value for single sided test: {res.pvalue / 2:.4f}')

결과

3.6 다중검정

1. 용어 정리

제 1종 오류(type 1 error): 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다.
거짓 발견 비율(FDR): 다중검정에서 1종 오류가 발생하는 비율
알파 인플레이션(alpha inflation): 1종 오류를 만들 확률인 알파가 더 많은 테스트를 수행할수록 증가하는 다중검정 현상.
p 값 조정(adjustment of p-value): 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다.
과대적합(overfitting): 잡음까지 피팅

2. 주요 개념

연구 조사나 데이터 마이닝 프로젝트에서 다중성(다중비교, 많은 변수, 많은 모델 등)은 일부가 우연히 유의미하다는 결론을 내릴 위험을 증가시킨다.
여러 통계 비교(즉, 여러 유의성검정)와 관련된 상황의 경우 통계적 수정 절차가 필요하다.
데이터 마이닝에서, 라벨이 지정된 결과변수가 있는 (즉 분류 결과를 알고 있는) 홀드아웃 표본을 사용하면 잘못된 결과를 피할 수 있다.