기초통계 (23) 다중검정 과 자유도

목록 보기

28/41

예를 들어 20개의 예측변수와 1개의 결과변수가 모두 임의로 생성되었다고 하자.
유의수준 0.05에서 20번의 유의성검정을 수행하면 적어도 하나의 예측변수에서 통계적으로 유의미한 결과를 초래할 가능성이 꽤 높아진다. 이것을 1종오류라고 한다.
숫자로 살펴보면 20번 모두 무의미하다라고 나올 확률은 0.95 x 0.95 x 0.95...=0.36이라는 결과가 나온다 즉 한번은 유의미하다고 나올 확률이 0.64이다.
이것을 알파 인플레이션 이라고 부른다.
알파 인플레이션 : 1종 오류를 만들 확률인 알파가 더 많은 테스트를 수행할 수록 증가하는 다중검정 현상
해당문제는 데이터 마이닝에서 모델이 잡음까지 과하게 학습하는 "오버피팅"과 연관이 있다.
즉, 변수가 많을수록 또는 더 많은 모델을 사용할수록 우연에 의해 '유의미한'결과가 나올 확률이 커진다.
지도학습(supervised learning)의 경우 이러한 리스트(risk)를 낮추기 위해 홀드아웃(hold-out)세트를 사용하여 방지한다.

A, B, C를 처리한다고 예를 들었을때 A와 B가 서로다른가?, B와 C가 서로다른가?, C와 A가 서로다른가? 라는 여러번의 질문을 해야하고 각질문마다 우연에 속을 기회가 증가하게 된다.
통계학에서는 이를 보완하기 위해 단일 가설검정을 할때보다 더 엄격한 유의성기준을 정해준다.
이러한 수정 절차는 일반적으로 검정횟수에 따라 유의수준을 나누는 방법이다.
방법 중 하나인 본페로니 수정에서는 간단히 알파를 비교횟수 n으로 나눈다.
여러그룹의 평균을 비교하는 또 다른 방법은 투키의 정직유의차다.

자유도란 표본 데이터에서 계산된 통계량에 적용되며 변화가 가능한 값들의 개수이다.
10개의 값으로 이루워진 표본에서 평균값을 알고 있다면 자유도는 9개이다.
자유도가 데이터과학적인 측면에서 중요할까?? 공식적인 통계 검정은 데이터 과학분야에서는 아주 드물게 사용된다.
또 다른 이유는 데이터 크기가 대개 충분히 크기때문에, 분모가 n인지 n-1인지는 데이터 과학자에게는 거의 차이가 없다.
하지만 회귀에서 요인변수를 사용할 때는 관련이 있다.(로지스틱 회귀를 포함)
완전히 불필요한 예측변수가 있는경우 회귀 알고리즘을 사용하기 어렵다. 예를들어 월요일~일요일을 숫자로 매핑했을때 일요일은 월요일~토요일이 아닌 것은 일요일이기 때문에 따로 일요일 변수를 가질필요가 없다. 즉, 다중공선성 오차로 인하여 실패하게된다.

문제를해결하는도구로서의"데이터"

통계