[통계학]TIL 30일차

Cherta·2024년 6월 10일
0

ANOVA(분산 분석, Analysis of Variance)

  • ANOVA(분산 분석, Analysis of Variance) : 여러 그룹 간의 평균 차이를 검정하는 통계 기법(주로 세 개 이상의 그룹 간의 평균을 비교할 때 사용)

  • ANOVA의 가설

    • 귀무 가설 : μ1=μ2==μk\mu_1 = \mu_2 = \ldots = \mu_k
    • 대립 가설 : 적어도 하나의 μi\mu_i가 다름
      • 대립 가설은 하나 이상의 집단의 평균이 다름을 말해주는 것일 뿐, 어느 집단의 평균이 다른 지는 알려주지 않음
  • ANOVA의 원리 : 평균을 검정하는 분산 분석
    • ANOVA는 평균을 비교하는 방법론이지만, 분산을 이용
    • 각 집단의 평균은 어차피 조금씩 다를 수밖에 없는데, 그 차이가 유의미하게 큰지를 확인하기 위해 분산을 이용
  • 카이제곱과 F 분포

    • 기본적으로 표준정규분포의 제곱합으로 정의
      Q=ikzi2Q=\sum^k_i z_i^2
    • 여기서 k는 데이터의 개수이며, 카이제곱 분포의 모수인 자유도
    • 두 카이제곱의 비Ratio를 이용하면 두 분산을 비교할 수 있음
      • 이를 F분포라 하며, 다음과 같이 정의
        F=Q1/d1Q2/d2,where  Qiχ(di)F = {{Q_1/d_1} \over {Q_2/d_2}}, \\where~~Q_i\sim \chi(d_i)
    • ANOVA는 3개 이상의 평균을 비교하는데, F분포는 2개의 분산을 비교
      • 이것이 가능한 이유는, ANOVA가 다음의 두 분산을 비교하기 때문
      • 집단 간 분산(Variance between groups)
        • 각 집단 사이의 평균의 분산을 구함
        • 집단 사이의 평균이 멀리 떨어질수록, 이 값이 커짐
      • 집단 내 분산(Variance Within groups)
        • 각 집단 내의 분산을 구함
        • 단 내의 분산이 크면, 집단 사이의 평균이 더 커야 귀무가설을 기각할 수 있음
  • ANOVA의 활용과 그 한계

    • ANOVA의 활용과 그 한계
      • ANOVA는 F 분포를 따르며, 낮은 p-value로 귀무가설을 기각하여 적어도 하나의 집단 평균이 다름을 확인
      • 어느 집단의 평균이 다른지는 알 수 없으므로 사후 검정(Post-hoc analysis)이 필요
    • 사후 검정(Post-hoc analysis)
      • 다양한 사후 검정 방법 중 Tukey 검정이 널리 사용
      • 모든 경우에 대해 평균의 차이가 통계적으로 유의미한지 확인
    • 실질적(Practical)유의와 통계적(Statistical)유의
      • 통계적으로 유의한 결과라도 실질적인 효과가 없다면 의미가 없음
      • 통계적 유의성은 비용과 효과 등을 종합적으로 판단해야 함

0개의 댓글