세 집단 이상 표본 비교 - 분산 분석

dkdiek·2024년 10월 31일

데이터분석

목록 보기
7/14

서로 다른 집단 끼리 비교를 많이 하는데 특히 평균이 서로 같은지 비교하는 경우가 많다.
이때 비교할 집단이 2개라면 T 검정 혹은 Z 검정으로 가설을 세워 비교하면 됩니다. 하지만 세 집단 이상의 표본을 비교/분석할 때는 분산 분석(ANOVA) 방법을 이용합니다.

분산 분석에서는 T 검정과 다르게 '크다'와 '작다'를 파악하지 않습니다. 단지, '같다'와 '같지 않다'만 파악하며, 분산을 활용하여 집단 간의 비교를 진행합니다. 분산은 곧 데이터 간의 치우침 정도를 나타내는 지표인데 치우침이 크다면 평균이 서로 다른 것이고, 작다면 평균이 같은 것으로 판단한다.

일원배치와 이원배치

분산 분석을 통해 세 집단 이상의 평균이 과연 서로 유의미한 차이가 있는지 확인해 보려고 한다.
도출된 P값이 0.05보다 작다면 '세 집단 간 데이터의 치우침이 크다.' 즉, 세 집단의 평균에는 유의미한 차이가 있다고 볼 수 있습니다. 반면, P값이 0.05보다 크면 유의미한 차이가 없다. 는 결론을 얻는다.
일원배치는 하나의 독립 변수를, 이원 배치는 2개의 독립 변수를 이용한 분산 분석

  • 일원배치
    문화시설에 방문하는 연령대별 여자의 유동인구 데이터(독립 변수 나이 하나)

  • 이원배치
    연령대별, 문화시설별 유동인구 데이터(나이, 시설 2개의 독립 변수)

반복 여부에 따른 구분

이원배치 분석은 반복적인 측정이 이루어진 데이터의 반복 유무에 따라 다시 한번 나뉜다. 반복이 없다면 변수 간 상호작용 확인이 어렵고, 반복이 있다면 상호작용 확인이 쉽다.

0개의 댓글