3.5 t 검정
1. 용어 정리
- 검정통계량(test statistic): 관심의 차이 또는 효과에 대한 측정 지표
- t 통계량(t-statistic): 평균과 같이 표준화된 형태의 일반적인 검정통계량
- t 분포(t-distribution): 관측된 t 통계량을 비교할 수 있는, (귀무가설에서 파생된) 기준분포
2. 예제: t-test
import scipy.stats as stats
res = stats.ttest_ind(session_times[session_times.Page == 'Page A'].Time,
session_times[session_times.Page == 'Page B'].Time,
equal_var = False)
print(f'p-value for single sided test: {res.pvalue / 2:.4f}')
- 결과
3.6 다중검정
1. 용어 정리
- 제 1종 오류(type 1 error): 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다.
- 거짓 발견 비율(FDR): 다중검정에서 1종 오류가 발생하는 비율
- 알파 인플레이션(alpha inflation): 1종 오류를 만들 확률인 알파가 더 많은 테스트를 수행할수록 증가하는 다중검정 현상.
- p 값 조정(adjustment of p-value): 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다.
- 과대적합(overfitting): 잡음까지 피팅
2. 주요 개념
- 연구 조사나 데이터 마이닝 프로젝트에서 다중성(다중비교, 많은 변수, 많은 모델 등)은 일부가 우연히 유의미하다는 결론을 내릴 위험을 증가시킨다.
- 여러 통계 비교(즉, 여러 유의성검정)와 관련된 상황의 경우 통계적 수정 절차가 필요하다.
- 데이터 마이닝에서, 라벨이 지정된 결과변수가 있는 (즉 분류 결과를 알고 있는) 홀드아웃 표본을 사용하면 잘못된 결과를 피할 수 있다.
3.7 자유도
1. 용어 정리
- 표본 크기 n: 해당 데이터에서 관측값의 개수
- d.f.(degrees of freedom): 자유도
2. 주요 개념
- 자우도(d.f.)는 검정통계량을 표준화하는 계산의 일부이며, 이를 통해 기준 분포(t 분포, F 분포 등)와 비교할 수 있다.
- 자유도 개념은 회귀를 할 때 (다중공선성을 피하기 위해) 범주형 변수들을 n-1 지표 혹은 더미 변수로 요인화하는 것의 이유가 된다.
피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.