Data Analysis 1. 등분산성(homoskedasticity) /분산분석(ANOVA) / 다중비교Multiple Comparison Test

Jiyoung Song·2023년 12월 7일

Data Analysis

목록 보기

1/1

parametric test: 정량적인 지표로 계측이 가능하고 정규분포에 따르는 표본분포를 상정가능한 경우
non-parametric test : 정성적인 데이터(定性的なデータ)이고 표본분포가 정규분포를 따르지 않는 것이 명확한 경우

등분산성 homoskedasticity

Leven 분산의 동질성 검정은 K개의 샘플이 동일한 분산을 가지고 있는지를 검정하고 만약 서로 다른 샘플이 동일한 분산을 가지고 있는 경우 각각의 분산이 등분산성을 가지고 있다고 한다.

귀무가설 H0 : 각각의 샘플의 분산은 동일하다
대립가설 H1: 각각의 샘플의 분산 중 하나이상의 샘플의 분산은 동일하지 않다

등분산성 검정의 목적 : 샘플이 같은 모집단에서 추출되었는지 간접적으로 확인하기 위해서

주로 사용되는 검정방법에는 Levene검정, Bartlett검정
Bartlett검정: 정규분포 즉 parametric test의 경우 사용
Levene검정 : non-parametric test

분산분석 Analysis of Variance(ANOVA)

분산분석은 다군의 검정 데이터(모집단 A~D)가 잇을 때 오차이상의 차이가 있는지의 검증.
여기서 다중비교는(多重比較）는 어떤 모집단과 어떤 모집단이 차이가 있는지를 검증.

<2군검정의 경우 sample=2>
분산분석으로 모집단 A,B를 비교하고 유의한 차이가 있다는 것을 알아냄
➡️ 비교검정을 통해서 어느 군이 어떠한 차이를 보이는 지를 검토

<다군검정의 경우 sample > 2>
A와 B,B와C,C와D,A와C,A와D 검정해야함 즉 2군의 평균 차의 검정인 t검정(혹은 f검정)을 2회이상 반복
△ 그럴 경우 신뢰구간 95%x95%...로 검증력検出力이 떨어짐. 다중성의문제(본래 군 간의 평균에 차이가 없는데도 불구하고 차가 있다고 판정해버리는 문제)
➡️대안 : 귀무가설을 간단하게 파기 못하게 하면 됨. 즉 검정회수에 따라 유의수준을 조정하면 됨. (유의수준의 유지) 이러한 수법을 다중비교법(Multiple Comparison Test) 이라고 함.

다중비교법(Multiple Comparison Test)

역시 여러가지 방법이 존재.
검정을 반복해도 第1種の過誤の確率（有意水準）유의수준의 수치를 크지 않게 조정하는 방법에는 3가지가 있다.
1. 검정의 판정에 사용하는 분푸를 엄격하게 조정하는 방법(분포조정형)
➡️most popular F분포,t분포(2군차검정)대신 새로운 분포표로 판정(또 여러 종류가 있으나..)
Tukey가 가장 기본적. Student q test スチューデントかされた範囲のq分布
q치는 t치의 2군의 불편분산인 σ＾2를 오차(효과)에 의한 군내 변동 , 즉 전군 평균의 불편분산인 불편오차분산σe＾2으로 바꾼 것.
q値はt値における2群の普遍分散を「誤差（効果）による群内変動」つまり、全群の平均の不偏分散である不偏誤差分散に置き換えただけ。
2. 통계량자체를 조정하는 방법(통계량 조정형)
3. 유의수준을 조정하는 방법(유의수준조정형)

parametric test인 경우

등분산성이고 전군비교(등표본사이즈等標本サイズ)
Fisher의 최소유의차검정(最小有意差検定)（분산분석이 유의한 경우, 3군의 경우에만 사용가능)
Tukey
Bonferroni (군 간에 대응이 있는 경우도 사용가능,5군이상은 검출력 저하)
R-E-G-W(F, Q)
Sidak(5군이상은 검출력 저하)

등분산성이고 전군비교(不等標本サイズ）
Tukey Kramer
Scheffe (분산분석이 유의한 경우만 사용가능)
Babriel
Turkey(b)
Hochberg(GT2) (5군이상은 검출력 저하)
비분산성
Tamhane (T2)
Games-Howell
Dunnett (T3,C)

Bonferroni test

다중비교법의 비교총수가 N인경우, 검정의 유의수즌은 α에서α/N으로 변경.
e.g 유의수준 5%, 3군->비교총수=3
3개의 검정 모두 유의수준을 5/3 = 1.67%으로 변경.
보수적인 검정으로 검출력이 조금 떨어짐. 보정자체는 간단.

Holm-Bonferroni test

Bonferroni는 보수적이가 검출력이 떨어지나 유의한 경우 대립가설을 강하게 지지하는 것이 가능.

m개의 가설검정을 진행하는 경우
유의수준을 작은 순으로 나열함.
P1,P2, …, Pm
대응하는 귀무가설은 H01,H02, …, H0m
k=1부터 순서대로 하기 조건을 만족하는지를 검토하고 만족하는 경우에는 대응하는 H0k를 기각.
만족하지 않는 경우는 이후의 모든 귀무가설 판정을 보류

전체 검정에서의 제일종의 오차율의 총합을 α이하로 보류.
全体での第一種過誤率の総和をα以下に留める．

*다군검정에서 유의차가 확인되지 않았을 경우 귀무가설(군간에 차이가 없다)를 지지하는 것보다 귀무가설을 기각하는 것을 [보류]하는 형태를 취하는 것이 무난 (비교하는 군이 증가함으로 인해 유의해지기 어렵기 때문)

Tukey test(등분산, 전군비교, 등표본사이즈)

분포조정형수법(스튜던드화한 범위q분포)
다중비교하는 ㅈ개의 데이터가 표본수n인 경우
통계량 q치와 기각역은
불편오차분산(不偏誤差分散）으로 나누는 것으로 인해 2개의 군의 차를 정규화하고있음.

Studentized range q
표본정규분포(평균 0 분산1)에 따르고 독립한 확률변수zi가 있으며 그것과 독립한 자유도 v의 x^2분포에 따르는 확률변수 x^2가 있을 경우 다음과 같은 확률변수 q(k,v)의 분포의 군수k,자유도v의 Studentized range 라고 함.

모든 출처 : 栗原,伸一著,「入門統計学 ―検定から多変量解析・実験計画法まで―」、2011

Jiyoung Song

🇰🇷student living in 🇯🇵(software engineer from 2024) and aiming for the grad school in 🇨🇭