t 검정 & 다중 검정 & 자유도

정다영·2022년 8월 18일
0

3.5 t 검정


1. 용어 정리

  • 검정통계량(test statistic): 관심의 차이 또는 효과에 대한 측정 지표
  • t 통계량(t-statistic): 평균과 같이 표준화된 형태의 일반적인 검정통계량
  • t 분포(t-distribution): 관측된 t 통계량을 비교할 수 있는, (귀무가설에서 파생된) 기준분포

2. 예제: t-test

  • 코드
import scipy.stats as stats

res = stats.ttest_ind(session_times[session_times.Page == 'Page A'].Time,
                      session_times[session_times.Page == 'Page B'].Time,
                      equal_var = False)

print(f'p-value for single sided test: {res.pvalue / 2:.4f}')
  • 결과



3.6 다중검정


1. 용어 정리

  • 제 1종 오류(type 1 error): 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다.
  • 거짓 발견 비율(FDR): 다중검정에서 1종 오류가 발생하는 비율
  • 알파 인플레이션(alpha inflation): 1종 오류를 만들 확률인 알파가 더 많은 테스트를 수행할수록 증가하는 다중검정 현상.
  • p 값 조정(adjustment of p-value): 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다.
  • 과대적합(overfitting): 잡음까지 피팅

2. 주요 개념

  • 연구 조사나 데이터 마이닝 프로젝트에서 다중성(다중비교, 많은 변수, 많은 모델 등)은 일부가 우연히 유의미하다는 결론을 내릴 위험을 증가시킨다.
  • 여러 통계 비교(즉, 여러 유의성검정)와 관련된 상황의 경우 통계적 수정 절차가 필요하다.
  • 데이터 마이닝에서, 라벨이 지정된 결과변수가 있는 (즉 분류 결과를 알고 있는) 홀드아웃 표본을 사용하면 잘못된 결과를 피할 수 있다.



3.7 자유도


1. 용어 정리

  • 표본 크기 n: 해당 데이터에서 관측값의 개수
  • d.f.(degrees of freedom): 자유도

2. 주요 개념

  • 자우도(d.f.)는 검정통계량을 표준화하는 계산의 일부이며, 이를 통해 기준 분포(t 분포, F 분포 등)와 비교할 수 있다.
  • 자유도 개념은 회귀를 할 때 (다중공선성을 피하기 위해) 범주형 변수들을 n-1 지표 혹은 더미 변수로 요인화하는 것의 이유가 된다.


피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.

profile
My_Spielraum

0개의 댓글