이원분산분석(Two way ANOVA) 정리하기

소환인·2023년 12월 5일
0

스터디노트

목록 보기
34/48

들어가며

분산분석(ANOVA)은 셋 이상의 집단을 비교할 때 사용하는 가설검정방법입니다. t-test는 두 집단간의 비교에서 사용하는데, 다수 집단의 비교에서 t-test를 여러번 사용하게 되면 1종 오류가 증가하게 되는 문제가 발생합니다. 그래서 셋 이상의 집단간에 비교를 위해 분산분석을을 사용하게 됩니다.

오늘은 그 중에서 이원분산분석(Two-Way ANOVA)에 대해 조사한 내용들을 정리하는 포스트를 작성하도록 하겠습니다.

이원분산분석의 기본 개념

이원분산분석에서는 데이터가 독립적이고 정규분포를 따르며, 각 그룹의 분산이 동일하다는 기본 가정(iid: independent and identically distributed)에 기초합니다.

독립성(Independence): 이 가정은 분석에 사용되는 데이터가 서로 독립적이라는 것을 의미합니다. 즉, 한 데이터 포인트가 다른 데이터 포인트에 영향을 미치지 않아야 합니다.

정규분포(Normality): 각 그룹의 데이터가 정규분포를 따른다고 가정합니다.

등분산성(Homogeneity of Variances): 모든 그룹의 분산이 동일하다는 가정입니다. 이는 다른 그룹 간의 비교를 타당하게 만들어줍니다.

이 가정들은 분석의 타당성을 확보하기 위해 필수적입니다. 이원분산분석은 두 개의 독립변수(또는 요인)의 효과와 이들 상호작용이 종속변수에 미치는 영향을 동시에 검토할 수 있게 해줍니다.

이원분산분석의 가설

이원분산분석에서는 주로 세 가지 주요 가설을 검정합니다. 이 가설들은 주효과(main effects)와 상호작용 효과(interaction effects)를 평가합니다

  1. 첫 번째 독립변수의 주효과에 대한 가설:

    • 귀무가설((H_0)): 첫 번째 독립변수의 각 수준이 종속변수에 미치는 평균 효과가 동일하다.
    • 대립가설((H_1)): 적어도 하나의 수준에서 다른 수준과 평균 효과가 다르다.

    이 가설은 첫 번째 독립변수가 종속변수에 미치는 주효과를 평가합니다.

  2. 두 번째 독립변수의 주효과에 대한 가설:

    • 귀무가설((H_0)): 두 번째 독립변수의 각 수준이 종속변수에 미치는 평균 효과가 동일하다.
    • 대립가설((H_1)): 적어도 하나의 수준에서 다른 수준과 평균 효과가 다르다.

    두 번째 독립변수에 대해서도 주효과를 검증합니다.

  3. 두 독립변수의 상호작용 효과에 대한 가설:

    • 귀무가설((H_0)): 두 독립변수의 상호작용이 종속변수에 유의미한 영향을 미치지 않는다.
    • 대립가설((H_1)): 두 독립변수의 상호작용이 종속변수에 유의미한 영향을 미친다.

    이 가설은 두 독립변수가 서로 어떻게 상호작용하며 이 상호작용이 종속변수에 어떤 영향을 미치는지를 평가합니다.

세 가지 가설을 검정함으로써 두 요인이 각각 독립적으로, 그리고 함께 작용할 때 데이터에 어떤 영향을 미치는지에 대해 알 수 있습니다.

이원분산분석의 계산 및 해석

아래는 임의로 생성된 분산분석표입니다. 이 표는 이원분산분석 결과를 요약하여 보여줍니다. 독립변수1, 독립변수2, 상호작용, 그리고 잔차에 대한 통계량을 포함합니다.

Source of VariationSum of SquaresDegrees of FreedomMean SquareF-StatisticP-value
Factor A120.01120.057.690.0001
Factor B80.0180.038.460.0005
Interaction AxB100.01100.048.080.0002
Residual200.0962.08
  • Factor A: 이는 첫 번째 독립변수의 주효과를 나타냅니다. 합계 제곱합(SST)은 120.0이며, 자유도(DF)는 1입니다. 평균제곱(Mean Square)은 120.0, F-통계량은 57.69로, 이는 첫 번째 독립변수가 종속변수에 유의미한 영향을 미친다는 것을 나타내는 강한 증거입니다.

  • Factor B: 두 번째 독립변수의 주효과를 나타냅니다. 합계 제곱합은 80.0, 자유도는 1입니다. 평균제곱은 80.0이고, F-통계량은 38.46으로, 두 번째 독립변수 역시 종속변수에 유의미한 영향을 미친다는 것을 나타냅니다.

  • Interaction AxB: 두 독립변수의 상호작용 효과를 나타냅니다. 합계 제곱합은 100.0, 자유도는 1입니다. 평균제곱은 100.0이며, F-통계량은 48.08로, 두 독립변수가 서로 상호작용하며 종속변수에 유의미한 영향을 미치는 것을 시사합니다.

  • Residual: 잔차 또는 오차 변동을 나타냅니다. 합계 제곱합은 200.0이며, 자유도는 96입니다. 평균제곱은 2.08로, 모델에 포함되지 않은 다른 요인들에 의한 변동을 나타냅니다.

  • Mean Square: 각 소스에 대한 제곱합을 자유도로 나눈 값입니다. 이 값은 F-통계량을 계산하는 데 사용됩니다.

  • F-Statistic과 P-value: 각 소스에 대한 F-통계량과 P-값은 해당 요인이 종속변수에 미치는 영향의 통계적 유의성을 나타냅니다. P-값이 유의수준(예를 들어, 0.05)보다 작으면 귀무가설을 기각하며, 이는 해당 요인이 통계적으로 유의미하다는 것을 나타냅니다.

이 표를 사용하여, 독립변수들의 주효과 및 상호작용 효과가 종속변수에 미치는 영향을 통계적으로 해석할 수 있습니다.

profile
돌고돌아

0개의 댓글