분산분석(ANOVA)

YongUk·2022년 10월 5일
0

Statistics

목록 보기
14/15
post-thumbnail

  • 여러 개의 다른 모집단의 평균, 분산값을 비교하는 분석기법
  • ANOVA의 결과값은 F 통계량이다.
  • t-검정의 경우 1-2개의 표본만 비교할 수 있었지만 F-검정의 경우 여러개를 비교할 수 있다.

일원배치 분산기법(one-way ANOVA)


  • 독립변수 : 이산형, 범주형 변수만 가능
  • 종속변수 : 연속형 변수만 가능

모형


Yij=μi+ϵijY_{ij} = \mu_i+\epsilon_{ij}

  • i와 j는 각각 그룹과 그 그룹에서 몇번째 표본인지 알려준다.
  • μi\mu_i는 i번째 그룹의 평균 값이다
  • ϵ\epsilon은 오차로서 서로 독립이면 정규분포 N(0,σ2)N(0,\sigma^2)를 따른다

관측값 분해


YijYˉ=(YˉiYˉ)+(YijYˉi)Y_{ij}-\bar Y = (\bar Y_i - \bar Y)+(Y_{ij}-\bar Y_i)

  • (YˉiYˉ)(\bar Y_i - \bar Y) : i에서의 측정값의 평균과 전체 평균의 차이 / 쉽게말해 이 그룹의 수준을 보여주는 편차
  • (YijYˉi)(Y_{ij}-\bar Y_i) : 측정값과 그룹의 평균의 차이, i그룹의 정보만으로는 설명할 수 없는 편차

변동의 제곱합


  • ij(YijYˉ)2\sum_i\sum_j(Y_{ij}-\bar Y)^2 : 총제곱합(SST)
  • ini(YˉiYˉ)2\sum_in_i(\bar Y_i - \bar Y)^2 : 처리제곱합(SStr)
  • ij(YijYˉi)2\sum_i\sum_j(Y_{ij}-\bar Y_i)^2 : 오차제곱합(SSE)
  • SSE=SSTSStrSSE = SST - SStr 을 이용하여 해결

    간편계산식
    SST=ijyij2nyˉ2SST = \sum_i\sum_j{y_{ij}}^2-n\bar y^2
    SStr=iniyˉi2nyˉ2SStr = \sum_in_i{\bar y_i}^2-n{\bar y}^2

자유도


  • SST:n1SST : n-1
  • SSE:nkSSE : n-k
  • SStr:k1SStr : k-1
  • MSE=SSEi=1knikMSE = \frac{SSE}{\sum_{i=1}^kn_i-k} : 평균오차제곱
  • Mstr=SStrk1Mstr = \frac{SStr}{k-1} : 평균처리제곱

분산분석 모형 추론


  • H0H_0 : k개의 모집단의 모평균의 차이가 없다
  • H1H_1 : 모집단의 모든 모평균이 같지는 않다(하나 이상은 차이가난다)
  • 모집단의 평균들이 비슷하다면 전체 평균과 모평균들의 차이가 적은 것이라 볼 수 있고 처리제곱합이 작아지지만 평균들이 비슷하지 않다면 처리제곱합은 커지게 된다.
  • F=MstrMSE F(k1,nk)F = \frac{Mstr}{MSE} ~ F(k-1,n-k)
  • FF값이 크단말은 평균간의 차이가 난다는 의미이고 귀무가설을 기각할 확률이 높아진다

0개의 댓글