세 집단 이상 표본 비교 - 분산 분석

dk·2024년 10월 31일

데이터분석

목록 보기

7/14

서로 다른 집단 끼리 비교를 많이 하는데 특히 평균이 서로 같은지 비교하는 경우가 많다.
이때 비교할 집단이 2개라면 T 검정 혹은 Z 검정으로 가설을 세워 비교하면 됩니다. 하지만 세 집단 이상의 표본을 비교/분석할 때는 분산 분석(ANOVA) 방법을 이용합니다.

분산 분석에서는 T 검정과 다르게 '크다'와 '작다'를 파악하지 않습니다. 단지, '같다'와 '같지 않다'만 파악하며, 분산을 활용하여 집단 간의 비교를 진행합니다. 분산은 곧 데이터 간의 치우침 정도를 나타내는 지표인데 치우침이 크다면 평균이 서로 다른 것이고, 작다면 평균이 같은 것으로 판단한다.

일원배치와 이원배치

분산 분석을 통해 세 집단 이상의 평균이 과연 서로 유의미한 차이가 있는지 확인해 보려고 한다.
도출된 P값이 0.05보다 작다면 '세 집단 간 데이터의 치우침이 크다.' 즉, 세 집단의 평균에는 유의미한 차이가 있다고 볼 수 있습니다. 반면, P값이 0.05보다 크면 유의미한 차이가 없다. 는 결론을 얻는다.
일원배치는 하나의 독립 변수를, 이원 배치는 2개의 독립 변수를 이용한 분산 분석

일원배치
문화시설에 방문하는 연령대별 여자의 유동인구 데이터(독립 변수 나이 하나)
이원배치
연령대별, 문화시설별 유동인구 데이터(나이, 시설 2개의 독립 변수)

반복 여부에 따른 구분

이원배치 분석은 반복적인 측정이 이루어진 데이터의 반복 유무에 따라 다시 한번 나뉜다. 반복이 없다면 변수 간 상호작용 확인이 어렵고, 반복이 있다면 상호작용 확인이 쉽다.

세 집단 이상 표본 비교 - 분산 분석

데이터분석

일원배치와 이원배치

반복 여부에 따른 구분

평규 유의미 차이 검정 Z 검정, T 검정

데이터 정규화와 표준화

0개의 댓글