ANOVA...? JAMOVI!

And ever shall be·2020년 9월 22일
3

분산분석 (ANOVA)에 대해 정리해본다.

두 집단간의 평균이 통계적으로 유의미 하게 다른지
t-test 등으로 알아볼 때와는 다르게,
비교해야 할 집단이 여러개인 상황에서 ANOVA를 사용한다.

A B C D 의 4개 집단을 비교한다고 해보자.

그러면

A-B
A-C
A-D
B-C
B-D
C-D

이렇게 6번의 비교를 해야한다.
이 비교 숫자는 n(n-1)/2 로 구할 수 있다.
(고등학교 때 배운 조합combination의 개념으로,
자세한 공식의 설명은 이 블로그를 참조할 것 https://suhak.tistory.com/2)

집단의 갯수 n이 증가함에 따라 가파르게 증가하는 비교횟수 때문에,
개별 비교의 신뢰도를 95%로 설정해도 여러번의 비교 후에는

전체 신뢰수준이 떨어진다.

무슨 말이냐 하면,
위와 같이 6번의 비교를 할 경우
95% 95% 95% 95% 95% * 95% = 73.5%
전체 비교연구의 신뢰도는 약 74%로 떨어진다.

1-신뢰도 = 유의수준 = Type 1 error가 나올 확률 α 이므로
Type 1 error 즉, 가짜 양성이 나올 확률이 26%나 된다는 말이다.

예를 들면,
한국, 일본, 미국, 영국의 남자들의 임신률을 측정했을 때,
전체 연구 결과를 보면 남자 100명당 26명이 임신인 것으로 나올 수 있다는 뜻이다.
(!!! 노벨상 받겠다 룰루)

이 전체 확률을 FWER Family-wise error rate이라고 한다.

ANOVA는 이 FWER를 고정하기 위한 분석 방법으로,

모든 집단에서 독립변수에 따른 종속변수의 분산이 같다고 가정한다.

귀무가설 null hypothesis → 모든 집단의 평균이 같다
실험가설 alternative hypothesis → 한 집단은 평균이 다르다

먼저 ANOVA를 통해 p value를 구해본다.

i) p > 유의수준 이라면,
null hypothesis인 '모든 집단의 평균이 같다'는 말을 반박할수가 없다.
이 경우, 더 사후 검정을 하는 것이 별 의미가 없어진다
(모든 집단의 평균이 같다는데 뭐 어떤 추가 분석이 더 필요하리)
다만, 이 결과가 실제로 모든 집단의 평균이 같아서가 아니라,
집단에 속한 데이터 수가 너무 적어서 검정을 수행할 충분한 양이 안된다는 뜻으로 봐야한다.

ii) p < 유의수준 이라면,
null hypothesis를 반박하고, alternative hypothesis였던
'한 집단은 평균이 다르다'를 채택할 수 있다.
그러면 평균이 다른 그 집단이 무엇인지를 이제 사후 검정을 통해 밝혀내면 된다.

사후 검정 시, 연구 전체의 유의수준인 FWER을 95%로 고정하기 위해선
개별 비교 시의 유의수준을 95%보다 더 높게 가정해야한다.

x^6 = 74, x=?

이걸 일일이 손으로 계산하라고 한다면 우는 수 밖에 없겠지만,
다행히 많은 통계 프로그램에서 ANOVA를 지원한다.

그중, R 베이스의 JAMOVI를 소개한다.

JAMOVI는 오픈 소스인 R을 이용하므로 무료이며,
코드를 몰라도 GUI 기반이라 쉽게 사용할 수 있다.
https://www.jamovi.org/

위의 사이트 - 다운로드에서 JAMOVI를 다운 받아보자.

메뉴바에서 t-test, ANOVA, Regression, Frequency 등을 볼 수 있다.
이정도 기능이면 기본적인 통계 분석은 별도의 통계 툴 없이 할 수 있으니,
통계 툴이 없거나, 코드가 가물가물 하다면 이 툴을 이용해봐야겠다.

profile
숫자로 세상을 건강하고 다정하게

0개의 댓글