Biostatistics 통계 분석-ANOVA (분산분석)

Hoya Jaeho Lee·2022년 4월 21일
0

Biostatistics

목록 보기
20/20

One-way ANOVA

설명변수가 연속형 대신 이산형인 회귀분석이라고 생각하면 되고, two sample t-test의 확장으로 세 그룹 이상의 평균이 모두 같은 지 검정 수행

F-test
그룹 간 변동량과 그룹 내 변동량의 비로, 세 그룹 평균의 차이들의 제곱합인 그룹 간 변동량과 그룹 내에서의 변동량을 비교하여 세 평균의 차이가 정상적인 표본 추출 과정에서 발생할 수 있는 오차에 비해 얼마나 큰지 평가하는 것이다. F값이 크면, 그룹간에 유의한 차이가 있다고 본다:)

그룹 간 변동량
그룹 내 변동량: 일원 분산분석 모형이 설명하지 못하는 부분으로 오차의 분산을 추정하는 데 활용

R에서는 회귀 분석과 마찬가지로 lm(y~그룹변수) 사용가능(물론 aov함수 적용도 가능)
output에대한 결과를 anova(out)으로 분산분석표 결과를 확인하여 통계적 유의성 검증!!

회귀분석과 마찬가지로 모델의 진단을 수행하고 Normal Q-Q plot, 잔차의 정규성검정도 시행

그 다음 사후 검정이 필요하면 적합한 사후검정 사용
Dunnett(하나의 대조군을 나머지 비교군들과 비교)
Tukey(가능한 모든 조합의 쌍 표시)

Kruskal-Wallis Test

일원분산분석에 해당되는 비모수 방법
Wilcoxon rank sum의 확장편으로 보면 됨:)
데이터의 순위에서 구한 집단간 변동량으로 검정통계량을 만드는 게 핵심
R코드
kruskal.test(y~그룹변수)

Two-way ANOVA

그룹 변수가 하나인 One-way ANOVA의 확장으로 두 개의 그룹변수를 가지는 특징. 두 그룹변수들의 효과와 더불어 서로 어떤 영향을 미치는 지 interaction도 확인 가능

interaction plot을 그려서 평행하면 두 변수는 서로 영향을 안 주는 것이어서 두 개의 그룹변수만 모형에 넣어도 상관 없지만, interaction plot에서 두 변수의 직선이 겹쳐지면 두 변수는 서로 영향을 주는 교호작용을 주는 것이라 variable1*variable2이런 형식으로 모형에 추가함:)

ANCOVA(Analysis of Covariance)를 anova대신 사용하는 이유?

실험이 비교적 잘 통제되고 종속변수의 변동을 설명하는 데 그룹변수 이외에 다른 변인이 없다면 분산분석을 시행해도 되지만 여러가지 다른 변인들을 통제해주어 조사하고자 하는 변수만의 효과를 조사해야하는 것이 핵심!!!
그래서 기존 분산분석에서 통제가 안되는 연속형 변수(covariate)을 추가해서 오차를 줄이고 검정력을 높이는 것이 중요하다:)

ANCOVA 관련 글 참고
https://velog.io/@hoyajhl/Biostatistics-%ED%86%B5%EA%B3%84-%EB%B6%84%EC%84%9D-ANCOVA-Analysis-of-Covariance

References
R을 이용한 누구나 하는 통계 분석, 안재형 지음

profile
Biostatistics researcher Github: https://github.com/hoyajhl

0개의 댓글