두 집단간의 평균이 통계적으로 유의미 하게 다른지
t-test 등으로 알아볼 때와는 다르게,
비교해야 할 집단이 여러개인 상황에서 ANOVA를 사용한다.
A B C D 의 4개 집단을 비교한다고 해보자.
그러면
A-B
A-C
A-D
B-C
B-D
C-D
이렇게 6번의 비교를 해야한다.
이 비교 숫자는 n(n-1)/2 로 구할 수 있다.
(고등학교 때 배운 조합combination의 개념으로,
자세한 공식의 설명은 이 블로그를 참조할 것 https://suhak.tistory.com/2)
집단의 갯수 n이 증가함에 따라 가파르게 증가하는 비교횟수 때문에,
개별 비교의 신뢰도를 95%로 설정해도 여러번의 비교 후에는
무슨 말이냐 하면,
위와 같이 6번의 비교를 할 경우
95% 95% 95% 95% 95% * 95% = 73.5%
전체 비교연구의 신뢰도는 약 74%로 떨어진다.
1-신뢰도 = 유의수준 = Type 1 error가 나올 확률 α 이므로
Type 1 error 즉, 가짜 양성이 나올 확률이 26%나 된다는 말이다.
예를 들면,
한국, 일본, 미국, 영국의 남자들의 임신률을 측정했을 때,
전체 연구 결과를 보면 남자 100명당 26명이 임신인 것으로 나올 수 있다는 뜻이다.
(!!! 노벨상 받겠다 룰루)
모든 집단에서 독립변수에 따른 종속변수의 분산이 같다고 가정한다.
귀무가설 null hypothesis → 모든 집단의 평균이 같다
실험가설 alternative hypothesis → 한 집단은 평균이 다르다
i) p > 유의수준 이라면,
null hypothesis인 '모든 집단의 평균이 같다'는 말을 반박할수가 없다.
이 경우, 더 사후 검정을 하는 것이 별 의미가 없어진다
(모든 집단의 평균이 같다는데 뭐 어떤 추가 분석이 더 필요하리)
다만, 이 결과가 실제로 모든 집단의 평균이 같아서가 아니라,
집단에 속한 데이터 수가 너무 적어서 검정을 수행할 충분한 양이 안된다는 뜻으로 봐야한다.
ii) p < 유의수준 이라면,
null hypothesis를 반박하고, alternative hypothesis였던
'한 집단은 평균이 다르다'를 채택할 수 있다.
그러면 평균이 다른 그 집단이 무엇인지를 이제 사후 검정을 통해 밝혀내면 된다.
사후 검정 시, 연구 전체의 유의수준인 FWER을 95%로 고정하기 위해선
개별 비교 시의 유의수준을 95%보다 더 높게 가정해야한다.
x^6 = 74, x=?
이걸 일일이 손으로 계산하라고 한다면 우는 수 밖에 없겠지만,
다행히 많은 통계 프로그램에서 ANOVA를 지원한다.
JAMOVI는 오픈 소스인 R을 이용하므로 무료이며,
코드를 몰라도 GUI 기반이라 쉽게 사용할 수 있다.
https://www.jamovi.org/
위의 사이트 - 다운로드에서 JAMOVI를 다운 받아보자.
메뉴바에서 t-test, ANOVA, Regression, Frequency 등을 볼 수 있다.
이정도 기능이면 기본적인 통계 분석은 별도의 통계 툴 없이 할 수 있으니,
통계 툴이 없거나, 코드가 가물가물 하다면 이 툴을 이용해봐야겠다.