분산분석(ANOVA)은 셋 이상의 집단을 비교할 때 사용하는 가설검정방법입니다. t-test는 두 집단간의 비교에서 사용하는데, 다수 집단의 비교에서 t-test를 여러번 사용하게 되면 1종 오류가 증가하게 되는 문제가 발생합니다. 그래서 셋 이상의 집단간에 비교를 위해 분산분석을을 사용하게 됩니다.
오늘은 그 중에서 이원분산분석(Two-Way ANOVA)에 대해 조사한 내용들을 정리하는 포스트를 작성하도록 하겠습니다.
이원분산분석에서는 데이터가 독립적이고 정규분포를 따르며, 각 그룹의 분산이 동일하다는 기본 가정(iid: independent and identically distributed)에 기초합니다.
독립성(Independence): 이 가정은 분석에 사용되는 데이터가 서로 독립적이라는 것을 의미합니다. 즉, 한 데이터 포인트가 다른 데이터 포인트에 영향을 미치지 않아야 합니다.
정규분포(Normality): 각 그룹의 데이터가 정규분포를 따른다고 가정합니다.
등분산성(Homogeneity of Variances): 모든 그룹의 분산이 동일하다는 가정입니다. 이는 다른 그룹 간의 비교를 타당하게 만들어줍니다.
이 가정들은 분석의 타당성을 확보하기 위해 필수적입니다. 이원분산분석은 두 개의 독립변수(또는 요인)의 효과와 이들 상호작용이 종속변수에 미치는 영향을 동시에 검토할 수 있게 해줍니다.
이원분산분석에서는 주로 세 가지 주요 가설을 검정합니다. 이 가설들은 주효과(main effects)와 상호작용 효과(interaction effects)를 평가합니다
첫 번째 독립변수의 주효과에 대한 가설:
이 가설은 첫 번째 독립변수가 종속변수에 미치는 주효과를 평가합니다.
두 번째 독립변수의 주효과에 대한 가설:
두 번째 독립변수에 대해서도 주효과를 검증합니다.
두 독립변수의 상호작용 효과에 대한 가설:
이 가설은 두 독립변수가 서로 어떻게 상호작용하며 이 상호작용이 종속변수에 어떤 영향을 미치는지를 평가합니다.
세 가지 가설을 검정함으로써 두 요인이 각각 독립적으로, 그리고 함께 작용할 때 데이터에 어떤 영향을 미치는지에 대해 알 수 있습니다.
아래는 임의로 생성된 분산분석표입니다. 이 표는 이원분산분석 결과를 요약하여 보여줍니다. 독립변수1, 독립변수2, 상호작용, 그리고 잔차에 대한 통계량을 포함합니다.
Source of Variation | Sum of Squares | Degrees of Freedom | Mean Square | F-Statistic | P-value |
---|---|---|---|---|---|
Factor A | 120.0 | 1 | 120.0 | 57.69 | 0.0001 |
Factor B | 80.0 | 1 | 80.0 | 38.46 | 0.0005 |
Interaction AxB | 100.0 | 1 | 100.0 | 48.08 | 0.0002 |
Residual | 200.0 | 96 | 2.08 |
Factor A: 이는 첫 번째 독립변수의 주효과를 나타냅니다. 합계 제곱합(SST)은 120.0이며, 자유도(DF)는 1입니다. 평균제곱(Mean Square)은 120.0, F-통계량은 57.69로, 이는 첫 번째 독립변수가 종속변수에 유의미한 영향을 미친다는 것을 나타내는 강한 증거입니다.
Factor B: 두 번째 독립변수의 주효과를 나타냅니다. 합계 제곱합은 80.0, 자유도는 1입니다. 평균제곱은 80.0이고, F-통계량은 38.46으로, 두 번째 독립변수 역시 종속변수에 유의미한 영향을 미친다는 것을 나타냅니다.
Interaction AxB: 두 독립변수의 상호작용 효과를 나타냅니다. 합계 제곱합은 100.0, 자유도는 1입니다. 평균제곱은 100.0이며, F-통계량은 48.08로, 두 독립변수가 서로 상호작용하며 종속변수에 유의미한 영향을 미치는 것을 시사합니다.
Residual: 잔차 또는 오차 변동을 나타냅니다. 합계 제곱합은 200.0이며, 자유도는 96입니다. 평균제곱은 2.08로, 모델에 포함되지 않은 다른 요인들에 의한 변동을 나타냅니다.
Mean Square: 각 소스에 대한 제곱합을 자유도로 나눈 값입니다. 이 값은 F-통계량을 계산하는 데 사용됩니다.
F-Statistic과 P-value: 각 소스에 대한 F-통계량과 P-값은 해당 요인이 종속변수에 미치는 영향의 통계적 유의성을 나타냅니다. P-값이 유의수준(예를 들어, 0.05)보다 작으면 귀무가설을 기각하며, 이는 해당 요인이 통계적으로 유의미하다는 것을 나타냅니다.
이 표를 사용하여, 독립변수들의 주효과 및 상호작용 효과가 종속변수에 미치는 영향을 통계적으로 해석할 수 있습니다.