📈 알파 인플레이션
- 예를 들어 20개의 예측변수와 1개의 결과변수가 모두 임의로 생성되었다고 하자.
- 유의수준 0.05에서 20번의 유의성검정을 수행하면 적어도 하나의 예측변수에서 통계적으로 유의미한 결과를 초래할 가능성이 꽤 높아진다. 이것을 1종오류라고 한다.
- 숫자로 살펴보면 20번 모두 무의미하다라고 나올 확률은 0.95 x 0.95 x 0.95...=0.36이라는 결과가 나온다 즉 한번은 유의미하다고 나올 확률이 0.64이다.
- 이것을 알파 인플레이션 이라고 부른다.
- 알파 인플레이션 : 1종 오류를 만들 확률인 알파가 더 많은 테스트를 수행할 수록 증가하는 다중검정 현상
- 해당문제는 데이터 마이닝에서 모델이 잡음까지 과하게 학습하는 "오버피팅"과 연관이 있다.
- 즉, 변수가 많을수록 또는 더 많은 모델을 사용할수록 우연에 의해 '유의미한'결과가 나올 확률이 커진다.
- 지도학습(supervised learning)의 경우 이러한 리스트(risk)를 낮추기 위해 홀드아웃(hold-out)세트를 사용하여 방지한다.
📈 용어정리
- 제 1종 오류 : 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다.(우연히 발생한것을 유의미한 것이라고 착각하는것)
- 거짓 발견 비율(FDR) : 다중검정에서 1종 오류가 발생하는 비율
- 알파 인플레이션(alpha inflation) : 1종 오류를 만들 확률인 알파가 더 많은 테스트를 수행할수록 증가하는 다중검정 현상
- p값 조정 : 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다.
- 과대적합(오버피팅, overfitting) : 잡음까지 학습해 버리는것
📈 다중검정 예시
- A, B, C를 처리한다고 예를 들었을때 A와 B가 서로다른가?, B와 C가 서로다른가?, C와 A가 서로다른가? 라는 여러번의 질문을 해야하고 각질문마다 우연에 속을 기회가 증가하게 된다.
- 통계학에서는 이를 보완하기 위해 단일 가설검정을 할때보다 더 엄격한 유의성기준을 정해준다.
- 이러한 수정 절차는 일반적으로 검정횟수에 따라 유의수준을 나누는 방법이다.
- 방법 중 하나인 본페로니 수정에서는 간단히 알파를 비교횟수 n으로 나눈다.
- 여러그룹의 평균을 비교하는 또 다른 방법은 투키의 정직유의차다.
(다중검정 설명 추가 및 보완 : https://velog.io/@ljs7463/다중검정Multiple-Comparison )
📈 자유도
- 자유도란 표본 데이터에서 계산된 통계량에 적용되며 변화가 가능한 값들의 개수이다.
- 10개의 값으로 이루워진 표본에서 평균값을 알고 있다면 자유도는 9개이다.
- 자유도가 데이터과학적인 측면에서 중요할까?? 공식적인 통계 검정은 데이터 과학분야에서는 아주 드물게 사용된다.
- 또 다른 이유는 데이터 크기가 대개 충분히 크기때문에, 분모가 n인지 n-1인지는 데이터 과학자에게는 거의 차이가 없다.
- 하지만 회귀에서 요인변수를 사용할 때는 관련이 있다.(로지스틱 회귀를 포함)
- 완전히 불필요한 예측변수가 있는경우 회귀 알고리즘을 사용하기 어렵다. 예를들어 월요일~일요일을 숫자로 매핑했을때 일요일은 월요일~토요일이 아닌 것은 일요일이기 때문에 따로 일요일 변수를 가질필요가 없다. 즉, 다중공선성 오차로 인하여 실패하게된다.